章节 01
Chimere:消费级GPU上运行350亿参数MoE模型的Rust推理引擎导读
Chimere项目核心导读
Chimere是一款完全用Rust编写的推理运行时,专为混合状态空间模型(SSM)与混合专家模型(MoE)架构优化。其核心突破在于:在单张16GB显存的消费级GPU(如RTX 5060 Ti)上,可流畅运行350亿参数的Qwen3.5-35B-A3B模型,生成速度达约94 tokens/秒,无需高端数据中心GPU。项目支持OpenAI兼容API,兼顾性能、部署便捷性与数据隐私需求。