开源llama.cpp针对鲲鹏920的极致性能版
智慧健康小搭子
2026年06月05日 16:15
收录于文集
共6篇
meta-llama

本机 Debian 11 系统版本旧,优化 llama.cpp 性能的过程特别曲折:

  • 用conda虚拟环境隔离解决glibc版本旧的限制

  • gcc 和 llama.cpp 需略改源码,才能完全启用所有CPU特性

llama.cpp 启动过程中显示启用的 cpu 特性

在容器里用 Debian 13 搭好编译环境,带华为的 kml 数据库和 毕昇 编译器。二进制成品和安装包也一并放到 github 上了

kml 和 毕昇 安装包

容器也共享了,直接用的话方便

llama.cpp 成品镜像

写了简单的说明和一个演示用的推理服务

项目说明

用 Demo.Dockerfile 构建演示镜像,启动起来自带WebUI

演示用的 WebUI

相比原生的编译产物

原生编译

优化版引入了kml和bisheng提速

kml + bisheng 编译

华为官方也有 llama.cpp 容器镜像,版本旧、性能差,明显没用心维护。

llama.cpp 官方的二进制版本对系统有要求,容器版里只有 llama-server 也没有用到 kml 和 bisheng编译。

代码块
Shell
自动换行
复制代码
# 镜像同步上传到 Docker Hub、Github CR、阿里云、华为云,各有4个Tag
podman pull ghcr.io/higkoo/llama-kunpeng920:b9279 # Debian 13 + llama.cpp-b9279-bin
podman pull docker.io/higkoohk/llama-kunpeng920:b9496 # Debian 13 + llama.cpp-b9496-bin
podman pull swr.cn-east-3.myhuaweicloud.com/higkoo/llama-kunpeng920:b9278 # Debian 11 + llama.cpp-b9279-bin
podman pull crpi-e497s5fmasai50fs.cn-hongkong.personal.cr.aliyuncs.com/higkoo/llama-kunpeng920:build # Debian 13 + llama.cpp 编译环境
复制成功

爱折腾的同学可以用 build,拿来用就直接上 b9496。

Docker Hub
阿里云
华为云

实测我的鲲鹏920在关超线程的情况下,启动日志

启动日志

单颗Numa推理 Qwen3.6-35B-A3B 输出接近30词元/秒 (20进程效果最佳)

推理效率

先到这里,玩得开心~