正文

LLM-TPU：在算能 TPU 上部署主流大语言模型的开源方案

LLM-TPU 是算能官方维护的开源项目，支持在 BM1684X/BM1688/CV186X 系列 TPU 芯片上一键部署 Qwen、Llama、DeepSeek 等数十种主流大语言模型和多模态模型。

TPU边缘计算大语言模型量化部署算能BM1684X模型转换边缘AI

发布时间 2026/04/29 11:13最近活动 2026/04/29 11:20预计阅读 4 分钟

章节 01

导读 / 主楼：LLM-TPU：在算能 TPU 上部署主流大语言模型的开源方案

LLM-TPU 是算能官方维护的开源项目，支持在 BM1684X/BM1688/CV186X 系列 TPU 芯片上一键部署 Qwen、Llama、DeepSeek 等数十种主流大语言模型和多模态模型。

章节 02

边缘 AI 的崛起与部署挑战

随着大语言模型（LLM）技术的飞速发展，越来越多的应用场景需要在边缘设备上运行 AI 模型。从智能安防摄像头到工业质检设备，从智能终端到自动驾驶系统，边缘 AI 的需求正在爆发式增长。然而，将动辄数十亿参数的 LLM 部署到资源受限的边缘设备上，面临着计算能力、内存容量、功耗控制等多重挑战。

传统的云端推理方案虽然性能强劲，但存在延迟高、依赖网络、隐私风险等问题。对于需要实时响应或数据敏感的场景，本地化部署成为刚需。但如何在有限的硬件资源上高效运行这些"庞然大物"，一直是业界面临的难题。

章节 03

项目介绍：算能 TPU 的 LLM 部署解决方案

LLM-TPU 是算能（SOPHGO）官方维护的开源项目，致力于为 BM1684X、BM1688、CV186X 系列 TPU 芯片提供主流生成式 AI 模型的一键部署方案。该项目覆盖了从模型转换、量化优化到推理部署的完整流程，让开发者能够在边缘设备上轻松运行 Qwen、Llama、DeepSeek 等热门大模型。

算能科技作为国内领先的 AI 芯片厂商，其 TPU 系列芯片专为深度学习推理优化设计。BM1684X 和 BM1688 是其中的代表性产品，具备强大的 INT8/FP16 计算能力和优秀的能效比，非常适合边缘 AI 场景。

章节 04

技术架构：从 HuggingFace 到 TPU 的完整链路

LLM-TPU 的技术架构设计清晰，形成了完整的模型部署流水线：

模型转换流程：

HuggingFace 原始权重 → tpu-mlir (llm_convert) → bmodel (量化模型) → tpu-runtime → 设备部署

这一流程的核心是 TPU-MLIR 编译器，它能够将 PyTorch/TensorFlow 等框架训练的模型转换为 TPU 专用的 bmodel 格式。在转换过程中，支持 AWQ、GPTQ 等量化技术，将模型压缩到适合边缘设备运行的规模。

双语言支持：项目为常用模型提供 Python 和 C++ 两种语言的 Demo 实现。Python 版本适合快速原型验证和算法调试，C++ 版本则用于生产环境部署，能够获得更低的延迟和更高的吞吐量。

多模态扩展：除了纯文本 LLM，项目还支持视觉语言模型（VLM）、音频模型等多模态 AI。例如 Qwen2.5-VL、InternVL3、Qwen3-VL 等模型都已完成适配，支持图片和视频输入。

章节 05

支持的模型生态

LLM-TPU 的模型支持列表相当丰富，几乎覆盖了当前主流的开源 LLM：

Qwen 系列：从 Qwen1.5 到最新的 Qwen3、QwQ-32B，以及多模态的 Qwen2.5-VL、Qwen3-VL、Qwen3.5，支持最完整。

Llama 系列：Llama2、Llama3、Llama3.2-Vision 均已适配，满足不同场景需求。

DeepSeek 系列：DeepSeek-R1-Distill-Qwen 的 1.5B/7B/14B/32B 版本全部支持，让边缘设备也能运行推理模型。

其他热门模型：MiniCPM4、Phi-3/Phi-4、ChatGLM3/4、Gemma3、InternVL3 等数十种模型。

这种广泛的模型支持意味着开发者可以根据具体场景选择最合适的模型，而不必被硬件限制所束缚。

章节 06

核心特性与优势

一键编译：通过 llm_convert.py 脚本，可以直接将 HuggingFace 权重导出为 bmodel，大幅降低模型转换门槛。无需深入了解 TPU 底层架构，几行命令即可完成转换。

开箱即用：项目提供预编译的 bmodel 下载，对于支持的模型，开发者可以直接下载使用，无需自行编译。这对于快速验证和原型开发非常有价值。

高效推理优化：支持 KV Cache、动态编译、多芯并行等优化技术。KV Cache 可以显著降低长文本生成的计算量，多芯并行则允许在多个 TPU 核心上分布式运行大模型。

量化支持：支持 AWQ、GPTQ 等先进的量化方案，在保持模型精度的同时大幅降低内存占用和计算需求。对于边缘设备来说，这是实现大模型部署的关键。

章节 07

快速上手指南

部署一个 LLM 到 TPU 设备上只需要简单的两步：

git clone https://github.com/sophgo/LLM-TPU.git
cd LLM-TPU
./run.sh --model qwen2.5vl

这个命令会自动下载预编译的 bmodel 并启动推理服务。项目还提供了详细的文档，包括模型编译流程、进阶应用开发、FAQ 等，帮助开发者深入理解整个技术栈。

对于需要自定义模型的场景，开发者可以按照以下步骤操作：

从 HuggingFace 下载模型权重（推荐使用 AWQ 或 GPTQ 量化版本）
配置 TPU-MLIR 环境（Docker 或源码安装）
使用 llm_convert.py 进行模型转换
在目标设备上部署运行

章节 08

应用场景与行业价值

LLM-TPU 为多个行业带来了边缘 AI 部署的可能性：

智能安防：在摄像头端直接运行视觉语言模型，实现实时事件检测、行为分析、异常告警，无需将视频流上传到云端，保护隐私的同时降低带宽成本。

工业质检：在产线边缘设备上部署多模态模型，结合图像和文本信息进行缺陷检测、质量评估，实现毫秒级响应。

智能终端：为机器人、智能音箱、车载系统等设备赋予强大的语言理解和生成能力，支持离线语音交互、智能问答等功能。

教育科研：为高校和研究机构提供低成本的 AI 实验平台，学生可以在本地设备上运行和研究大模型，无需昂贵的 GPU 服务器。

LLM-TPU：在算能 TPU 上部署主流大语言模型的开源方案

导读 / 主楼：LLM-TPU：在算能 TPU 上部署主流大语言模型的开源方案

边缘 AI 的崛起与部署挑战

项目介绍：算能 TPU 的 LLM 部署解决方案

技术架构：从 HuggingFace 到 TPU 的完整链路

支持的模型生态

核心特性与优势

快速上手指南

应用场景与行业价值

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

图神经网络革新全球天气预报：从Graph Weather到多模型融合的开源实践

ExoVision：AI 驱动的系外行星探测与宜居性评估平台

Vertica专家技能：一站式企业级数据库迁移与优化指南