章节 01
导读 / 主楼:LLM-TPU:在算能 TPU 上部署主流大语言模型的开源方案
LLM-TPU 是算能官方维护的开源项目,支持在 BM1684X/BM1688/CV186X 系列 TPU 芯片上一键部署 Qwen、Llama、DeepSeek 等数十种主流大语言模型和多模态模型。
正文
LLM-TPU 是算能官方维护的开源项目,支持在 BM1684X/BM1688/CV186X 系列 TPU 芯片上一键部署 Qwen、Llama、DeepSeek 等数十种主流大语言模型和多模态模型。
章节 01
LLM-TPU 是算能官方维护的开源项目,支持在 BM1684X/BM1688/CV186X 系列 TPU 芯片上一键部署 Qwen、Llama、DeepSeek 等数十种主流大语言模型和多模态模型。
章节 02
随着大语言模型(LLM)技术的飞速发展,越来越多的应用场景需要在边缘设备上运行 AI 模型。从智能安防摄像头到工业质检设备,从智能终端到自动驾驶系统,边缘 AI 的需求正在爆发式增长。然而,将动辄数十亿参数的 LLM 部署到资源受限的边缘设备上,面临着计算能力、内存容量、功耗控制等多重挑战。
传统的云端推理方案虽然性能强劲,但存在延迟高、依赖网络、隐私风险等问题。对于需要实时响应或数据敏感的场景,本地化部署成为刚需。但如何在有限的硬件资源上高效运行这些"庞然大物",一直是业界面临的难题。
章节 03
LLM-TPU 是算能(SOPHGO)官方维护的开源项目,致力于为 BM1684X、BM1688、CV186X 系列 TPU 芯片提供主流生成式 AI 模型的一键部署方案。该项目覆盖了从模型转换、量化优化到推理部署的完整流程,让开发者能够在边缘设备上轻松运行 Qwen、Llama、DeepSeek 等热门大模型。
算能科技作为国内领先的 AI 芯片厂商,其 TPU 系列芯片专为深度学习推理优化设计。BM1684X 和 BM1688 是其中的代表性产品,具备强大的 INT8/FP16 计算能力和优秀的能效比,非常适合边缘 AI 场景。
章节 04
LLM-TPU 的技术架构设计清晰,形成了完整的模型部署流水线:
模型转换流程:
HuggingFace 原始权重 → tpu-mlir (llm_convert) → bmodel (量化模型) → tpu-runtime → 设备部署
这一流程的核心是 TPU-MLIR 编译器,它能够将 PyTorch/TensorFlow 等框架训练的模型转换为 TPU 专用的 bmodel 格式。在转换过程中,支持 AWQ、GPTQ 等量化技术,将模型压缩到适合边缘设备运行的规模。
双语言支持:项目为常用模型提供 Python 和 C++ 两种语言的 Demo 实现。Python 版本适合快速原型验证和算法调试,C++ 版本则用于生产环境部署,能够获得更低的延迟和更高的吞吐量。
多模态扩展:除了纯文本 LLM,项目还支持视觉语言模型(VLM)、音频模型等多模态 AI。例如 Qwen2.5-VL、InternVL3、Qwen3-VL 等模型都已完成适配,支持图片和视频输入。
章节 05
LLM-TPU 的模型支持列表相当丰富,几乎覆盖了当前主流的开源 LLM:
Qwen 系列:从 Qwen1.5 到最新的 Qwen3、QwQ-32B,以及多模态的 Qwen2.5-VL、Qwen3-VL、Qwen3.5,支持最完整。
Llama 系列:Llama2、Llama3、Llama3.2-Vision 均已适配,满足不同场景需求。
DeepSeek 系列:DeepSeek-R1-Distill-Qwen 的 1.5B/7B/14B/32B 版本全部支持,让边缘设备也能运行推理模型。
其他热门模型:MiniCPM4、Phi-3/Phi-4、ChatGLM3/4、Gemma3、InternVL3 等数十种模型。
这种广泛的模型支持意味着开发者可以根据具体场景选择最合适的模型,而不必被硬件限制所束缚。
章节 06
一键编译:通过 llm_convert.py 脚本,可以直接将 HuggingFace 权重导出为 bmodel,大幅降低模型转换门槛。无需深入了解 TPU 底层架构,几行命令即可完成转换。
开箱即用:项目提供预编译的 bmodel 下载,对于支持的模型,开发者可以直接下载使用,无需自行编译。这对于快速验证和原型开发非常有价值。
高效推理优化:支持 KV Cache、动态编译、多芯并行等优化技术。KV Cache 可以显著降低长文本生成的计算量,多芯并行则允许在多个 TPU 核心上分布式运行大模型。
量化支持:支持 AWQ、GPTQ 等先进的量化方案,在保持模型精度的同时大幅降低内存占用和计算需求。对于边缘设备来说,这是实现大模型部署的关键。
章节 07
部署一个 LLM 到 TPU 设备上只需要简单的两步:
git clone https://github.com/sophgo/LLM-TPU.git
cd LLM-TPU
./run.sh --model qwen2.5vl
这个命令会自动下载预编译的 bmodel 并启动推理服务。项目还提供了详细的文档,包括模型编译流程、进阶应用开发、FAQ 等,帮助开发者深入理解整个技术栈。
对于需要自定义模型的场景,开发者可以按照以下步骤操作:
章节 08
LLM-TPU 为多个行业带来了边缘 AI 部署的可能性:
智能安防:在摄像头端直接运行视觉语言模型,实现实时事件检测、行为分析、异常告警,无需将视频流上传到云端,保护隐私的同时降低带宽成本。
工业质检:在产线边缘设备上部署多模态模型,结合图像和文本信息进行缺陷检测、质量评估,实现毫秒级响应。
智能终端:为机器人、智能音箱、车载系统等设备赋予强大的语言理解和生成能力,支持离线语音交互、智能问答等功能。
教育科研:为高校和研究机构提供低成本的 AI 实验平台,学生可以在本地设备上运行和研究大模型,无需昂贵的 GPU 服务器。