Zing 论坛

正文

赤兔Chitu:清华团队开源的生产级大模型推理引擎,全面支持国产芯片

清华大学PACMAN实验室开源的Chitu推理框架,不仅支持NVIDIA全系GPU,更深度适配华为昇腾、摩尔线程、沐曦、海光等国产芯片,实现从单卡到集群的全场景部署。

Chitu赤兔大模型推理清华PACMAN国产芯片昇腾摩尔线程沐曦DeepSeekQwen
发布时间 2026/04/01 12:14最近活动 2026/04/01 12:17预计阅读 2 分钟
赤兔Chitu:清华团队开源的生产级大模型推理引擎,全面支持国产芯片
1

章节 01

导读:清华开源赤兔Chitu推理引擎,全面支持国产芯片与全场景部署

清华大学PACMAN实验室开源的Chitu(赤兔)推理框架,定位生产级大模型推理引擎,兼具高性能与稳定性。核心优势包括:支持NVIDIA全系GPU及华为昇腾、摩尔线程、沐曦、海光等国产芯片;覆盖纯CPU、单卡GPU到大规模集群的全场景部署;兼容DeepSeek、Qwen、GLM等主流大模型;具备FP4/FP8量化、CPU+GPU异构混合推理等技术亮点,可承载真实并发业务流量。

2

章节 02

项目背景与定位

Chitu中文名'赤兔'寓意速度与力量,设计目标是打造高效、灵活、可用的高性能推理框架。与单一硬件优化的引擎不同,它从设计之初考虑企业AI落地的渐进式需求,提供从实验室试验到大规模生产的可扩展方案。其定位明确为'生产级',不仅追求极致性能,更确保长期运行的稳定性与可靠性,能承载真实并发业务流量。

3

章节 03

多元算力适配:深度支持国产芯片

Chitu对多元算力的全面支持是其核心特性之一:

  • NVIDIA全系:覆盖从Blackwell架构到旧款多系列产品;
  • 华为昇腾:v0.3.5支持昇腾910B原生部署,v0.3.9首发GLM-4.5 MoE模型在昇腾的推理;
  • 摩尔线程:v0.5.1完成适配;
  • 沐曦、海光:v0.4.0提升性能与稳定性。 这让企业可灵活选择算力平台,避免单一供应商锁定。
4

章节 04

全场景可伸缩部署方案

Chitu支持全场景部署:

  • 纯CPU部署:降低硬件门槛,适用于轻量级推理场景;
  • 单卡GPU部署:通过CPU+GPU异构混合推理(v0.2.2),单卡可运行DeepSeek-R1 671B超大模型;v0.3.0新增FP4在线转FP8/BF16算子,支持该模型的FP4量化版本;
  • 大规模集群部署:v0.5.0提升集群性能,应对企业高并发需求。
5

章节 05

模型生态与核心技术亮点

模型生态:支持DeepSeek、Qwen、GLM、Kimi等主流大模型,v0.3.5提供Qwen3系列高性能方案,v0.3.9首发GLM-4.5 MoE在昇腾的部署; 技术亮点

  1. 量化支持:v0.1.0支持FP8转BF16,v0.3.0新增FP4转FP8/BF16,降低显存与计算开销;
  2. 异构混合推理:智能分配CPU/GPU任务,单卡运行超大模型;
  3. 生产级稳定性:强调长期稳定运行,适配真实业务场景。
6

章节 06

快速部署与开源生态

快速部署:提供多平台Docker镜像,如NVIDIA(arch8.0/8.9、9.0)、沐曦、昇腾(A2/A3)等,降低入门门槛; 开源生态:采用Apache License v2.0协议,代码托管于GitHub,团队积极汲取DeepSeek、FlashAttention等项目灵感,欢迎社区贡献并提供详细指南。

7

章节 07

应用价值与未来展望

Chitu对企业的价值:国产芯片适配具战略意义,生产级稳定性降低技术风险; 展望:随着大模型场景扩展,推理引擎重要性凸显,Chitu有望在国内生态中扮演关键角色; 建议:需降低推理成本、提升性能或在国产芯片部署大模型的团队,可评估尝试Chitu。