
本机 Debian 11 系统版本旧,优化 llama.cpp 性能的过程特别曲折:
用conda虚拟环境隔离解决glibc版本旧的限制
gcc 和 llama.cpp 需略改源码,才能完全启用所有CPU特性

在容器里用 Debian 13 搭好编译环境,带华为的 kml 数据库和 毕昇 编译器。二进制成品和安装包也一并放到 github 上了

容器也共享了,直接用的话方便

写了简单的说明和一个演示用的推理服务

用 Demo.Dockerfile 构建演示镜像,启动起来自带WebUI

相比原生的编译产物

优化版引入了kml和bisheng提速

华为官方也有 llama.cpp 容器镜像,版本旧、性能差,明显没用心维护。
llama.cpp 官方的二进制版本对系统有要求,容器版里只有 llama-server 也没有用到 kml 和 bisheng编译。
# 镜像同步上传到 Docker Hub、Github CR、阿里云、华为云,各有4个Tag
podman pull ghcr.io/higkoo/llama-kunpeng920:b9279 # Debian 13 + llama.cpp-b9279-bin
podman pull docker.io/higkoohk/llama-kunpeng920:b9496 # Debian 13 + llama.cpp-b9496-bin
podman pull swr.cn-east-3.myhuaweicloud.com/higkoo/llama-kunpeng920:b9278 # Debian 11 + llama.cpp-b9279-bin
podman pull crpi-e497s5fmasai50fs.cn-hongkong.personal.cr.aliyuncs.com/higkoo/llama-kunpeng920:build # Debian 13 + llama.cpp 编译环境 爱折腾的同学可以用 build,拿来用就直接上 b9496。



实测我的鲲鹏920在关超线程的情况下,启动日志

单颗Numa推理 Qwen3.6-35B-A3B 输出接近30词元/秒 (20进程效果最佳)

先到这里,玩得开心~