正文

赤兔Chitu：清华团队开源的生产级大模型推理引擎，全面支持国产芯片

清华大学PACMAN实验室开源的Chitu推理框架，不仅支持NVIDIA全系GPU，更深度适配华为昇腾、摩尔线程、沐曦、海光等国产芯片，实现从单卡到集群的全场景部署。

Chitu赤兔大模型推理清华PACMAN国产芯片昇腾摩尔线程沐曦DeepSeekQwen

发布时间 2026/04/01 12:14最近活动 2026/04/01 12:17预计阅读 2 分钟

章节 01

导读：清华开源赤兔Chitu推理引擎，全面支持国产芯片与全场景部署

清华大学PACMAN实验室开源的Chitu（赤兔）推理框架，定位生产级大模型推理引擎，兼具高性能与稳定性。核心优势包括：支持NVIDIA全系GPU及华为昇腾、摩尔线程、沐曦、海光等国产芯片；覆盖纯CPU、单卡GPU到大规模集群的全场景部署；兼容DeepSeek、Qwen、GLM等主流大模型；具备FP4/FP8量化、CPU+GPU异构混合推理等技术亮点，可承载真实并发业务流量。

章节 02

项目背景与定位

Chitu中文名'赤兔'寓意速度与力量，设计目标是打造高效、灵活、可用的高性能推理框架。与单一硬件优化的引擎不同，它从设计之初考虑企业AI落地的渐进式需求，提供从实验室试验到大规模生产的可扩展方案。其定位明确为'生产级'，不仅追求极致性能，更确保长期运行的稳定性与可靠性，能承载真实并发业务流量。

章节 03

多元算力适配：深度支持国产芯片

Chitu对多元算力的全面支持是其核心特性之一：

NVIDIA全系：覆盖从Blackwell架构到旧款多系列产品；
华为昇腾：v0.3.5支持昇腾910B原生部署，v0.3.9首发GLM-4.5 MoE模型在昇腾的推理；
摩尔线程：v0.5.1完成适配；
沐曦、海光：v0.4.0提升性能与稳定性。这让企业可灵活选择算力平台，避免单一供应商锁定。

章节 04

全场景可伸缩部署方案

Chitu支持全场景部署：

纯CPU部署：降低硬件门槛，适用于轻量级推理场景；
单卡GPU部署：通过CPU+GPU异构混合推理（v0.2.2），单卡可运行DeepSeek-R1 671B超大模型；v0.3.0新增FP4在线转FP8/BF16算子，支持该模型的FP4量化版本；
大规模集群部署：v0.5.0提升集群性能，应对企业高并发需求。

章节 05

模型生态与核心技术亮点

模型生态：支持DeepSeek、Qwen、GLM、Kimi等主流大模型，v0.3.5提供Qwen3系列高性能方案，v0.3.9首发GLM-4.5 MoE在昇腾的部署； 技术亮点：

量化支持：v0.1.0支持FP8转BF16，v0.3.0新增FP4转FP8/BF16，降低显存与计算开销；
异构混合推理：智能分配CPU/GPU任务，单卡运行超大模型；
生产级稳定性：强调长期稳定运行，适配真实业务场景。

章节 06

快速部署与开源生态

快速部署：提供多平台Docker镜像，如NVIDIA（arch8.0/8.9、9.0）、沐曦、昇腾（A2/A3）等，降低入门门槛； 开源生态：采用Apache License v2.0协议，代码托管于GitHub，团队积极汲取DeepSeek、FlashAttention等项目灵感，欢迎社区贡献并提供详细指南。

章节 07