章节 01
导读 / 主楼:llm-bottleneck-lab:资源受限环境下的LLM推理优化研究平台
一个专注于低规格硬件LLM推理瓶颈研究的实验平台,探索量化、CPU/Vulkan/iGPU性能瓶颈以及BitNet三值权重优化。
正文
一个专注于低规格硬件LLM推理瓶颈研究的实验平台,探索量化、CPU/Vulkan/iGPU性能瓶颈以及BitNet三值权重优化。
章节 01
一个专注于低规格硬件LLM推理瓶颈研究的实验平台,探索量化、CPU/Vulkan/iGPU性能瓶颈以及BitNet三值权重优化。
章节 02
llm-bottleneck-lab(又称 llm-lite)明确声明自己不是 llama.cpp 的替代品,也不是 vLLM 的竞品。它的核心定位是一个低规格LLM系统研究实验室,专注于探索以下关键技术方向:
章节 03
项目采用模块化架构,核心流程如下:
用户CLI (run.py / benchmark.py)
↓
ModelConfig Parser → ModelRegistry
↓
Model Adapter → RuntimeContext
↓
Backend Execution / Quantization Path
↓
Benchmark Reporter
这种设计使得研究人员可以灵活地测试不同模型、不同后端、不同精度组合下的性能表现。
章节 04
项目目前支持多个主流开源模型家族的实验性推理:
| 模型家族 | 示例模型 | 配置解析 | CPU参考实现 | 量化支持 | Vulkan | 状态 |
|---|---|---|---|---|---|---|
| Gemma3N | gemma-3n-e4b | ✅ | ✅ (Legacy) | fp16/int8/int4 | ✅ | 遗留工作路径 |
| Llama | llama-3.2-1b | ✅ | 骨架 | fp16/int8/int4 | 骨架 | 可运行dry-run |
| Qwen | qwen2.5-1.5b | ✅ | 骨架 | fp16/int8/int4 | 骨架 | 可运行dry-run |
| DeepSeek | deepseek-r1-distill-qwen-1.5b | ✅ | 骨架 | fp16/int8/int4 | 骨架 | 可运行dry-run |
| BitNet | bitnet-b1.58-2b | ✅ | 实验性 | 三值 | 计划中 | 实验性骨架 |
章节 05
| 后端 | 目标平台 | 状态 | 说明 |
|---|---|---|---|
| cpu | x86 / ARM CPU | 可运行 | 参考CPU实现 |
| vulkan | iGPU / dGPU | 骨架 | 目标卸载加速 |
| npu_uca | FPGA风格NPU | 实验性 | 裸机研究路径 |
章节 06
| 精度 | 目标模型 | 状态 | 说明 |
|---|---|---|---|
| fp16 | llama, qwen, gemma3n, deepseek-distill | 骨架 | 标准16位浮点 |
| int8 | 同上 | 骨架 | 8位整数量化 |
| int4 | 同上 | 骨架 | 4位整数量化 |
| ternary | bitnet | 实验性 | -1/0/+1三值量化 |
章节 07
在纯CPU推理场景下,内存带宽往往是首要瓶颈。项目通过精细的内存访问模式分析和缓存优化策略,探索如何在有限的DDR带宽下最大化吞吐量。
章节 08
集成显卡虽然计算能力有限,但拥有独立的内存子系统。项目研究如何平衡数据在CPU与iGPU之间的传输开销,找到最佳的卸载策略。