开源llama.cpp针对鲲鹏920的极致性能版

智慧健康小搭子

2026年06月05日 16:15

收录于文集

共6篇

meta-llama

本机 Debian 11 系统版本旧，优化 llama.cpp 性能的过程特别曲折：

用conda虚拟环境隔离解决glibc版本旧的限制
gcc 和 llama.cpp 需略改源码，才能完全启用所有CPU特性

llama.cpp 启动过程中显示启用的 cpu 特性

在容器里用 Debian 13 搭好编译环境，带华为的 kml 数据库和毕昇编译器。二进制成品和安装包也一并放到 github 上了

kml 和毕昇安装包

容器也共享了，直接用的话方便

llama.cpp 成品镜像

写了简单的说明和一个演示用的推理服务

项目说明

用 Demo.Dockerfile 构建演示镜像，启动起来自带WebUI

演示用的 WebUI

相比原生的编译产物

原生编译

优化版引入了kml和bisheng提速

kml + bisheng 编译

华为官方也有 llama.cpp 容器镜像，版本旧、性能差，明显没用心维护。

llama.cpp 官方的二进制版本对系统有要求，容器版里只有 llama-server 也没有用到 kml 和 bisheng编译。

 代码块
Shell
自动换行
复制代码
# 镜像同步上传到 Docker Hub、Github CR、阿里云、华为云，各有4个Tag
podman pull ghcr.io/higkoo/llama-kunpeng920:b9279 # Debian 13 + llama.cpp-b9279-bin
podman pull docker.io/higkoohk/llama-kunpeng920:b9496 # Debian 13 + llama.cpp-b9496-bin
podman pull swr.cn-east-3.myhuaweicloud.com/higkoo/llama-kunpeng920:b9278 # Debian 11 + llama.cpp-b9279-bin
podman pull crpi-e497s5fmasai50fs.cn-hongkong.personal.cr.aliyuncs.com/higkoo/llama-kunpeng920:build # Debian 13 + llama.cpp 编译环境复制成功

爱折腾的同学可以用 build，拿来用就直接上 b9496。

Docker Hub

阿里云

华为云

实测我的鲲鹏920在关超线程的情况下，启动日志

启动日志

单颗Numa推理 Qwen3.6-35B-A3B 输出接近30词元/秒（20进程效果最佳）

推理效率

先到这里，玩得开心～

本文为我原创，未经授权禁止转载

cv50110470

分享至

投诉或建议