正文

Project Zero：纯C语言打造的BitNet推理引擎，CPU上跑出GPU级性能

一个从零构建的单二进制LLM推理引擎，用C99实现，在消费级CPU上高效运行微软BitNet b1.58-2B-4T模型，无需GPU、无需Python、无需任何框架依赖。

LLM推理引擎BitNetCPU优化C语言边缘计算本地AI量化推理AVX-512开源项目

发布时间 2026/06/07 17:14最近活动 2026/06/07 17:21预计阅读 3 分钟

章节 01

导读 / 主楼：Project Zero：纯C语言打造的BitNet推理引擎，CPU上跑出GPU级性能

一个从零构建的单二进制LLM推理引擎，用C99实现，在消费级CPU上高效运行微软BitNet b1.58-2B-4T模型，无需GPU、无需Python、无需任何框架依赖。

章节 02

原作者与来源

原作者/维护者： shifulegend
来源平台： GitHub
原始标题： project-zero
原始链接： https://github.com/shifulegend/project-zero
发布时间： 2026年6月6日
最后更新： 2026年6月7日

章节 03

项目概述

Project Zero是一个从零构建的单二进制LLM推理引擎，完全用C99编写。它的核心目标是：在消费级CPU上高效运行微软的BitNet b1.58-2B-4T模型，无需GPU、无需Python、无需任何框架依赖。这个项目代表了边缘计算和本地AI部署的一个重要里程碑——证明纯CPU推理可以达到令人惊讶的性能水平。

BitNet b1.58-2B-4T是一个20亿参数的大型语言模型，采用三元量化权重（-1, 0, +1）。传统上，这类模型需要GPU才能获得可接受的推理速度，但Project Zero通过极致的CPU优化，成功打破了这一假设。

章节 04

纯C99实现的优势

Project Zero选择C语言作为实现基础，带来了几个关键优势：

零依赖部署：单个可执行文件，无需Python环境、PyTorch或其他框架
内存效率：直接控制内存布局，支持mmap零拷贝加载
SIMD优化：运行时动态选择AVX-512、AVX2、NEON或标量后端
可预测性能：没有垃圾回收或动态类型带来的不确定性

章节 05

三元矩阵乘法优化

BitNet的核心是三元权重（每个权重仅为-1、0或+1）。Project Zero实现了16宽AVX-512打包内核，相比AVX2实现了2倍吞吐量提升。权重以每字节4个值的密度打包存储，大幅降低了内存带宽需求。

章节 06

智能KV缓存策略

引擎采用滑动窗口KV缓存，支持int8量化，可在合理内存占用下处理131K上下文长度。这对于长文档分析和对话应用至关重要。

章节 07

Xeon服务器测试（最佳结果）

在Intel Xeon @ 2.10 GHz（Emerald Rapids架构，4核，260MB L3缓存）上：

配置	速度	备注
基线（AVX-512F浮点FMA）	16.47 tok/s	三元浮点路径
+ INT8 VNNI分类器	21.20 tok/s	提升28.7%
+ VBMI 3指令解包	32.65 tok/s	三元层快2.7倍
+ INT4分类器 + PGO/LTO	36.25 tok/s	达到DRAM带宽上限的95%