Zing 论坛

正文

Chimere:在消费级显卡上运行350亿参数MoE模型的Rust推理引擎

Chimere是一个专为本地混合SSM+MoE架构设计的Rust推理运行时,能在单张16GB消费级GPU上以94 tokens/秒的速度运行Qwen3.5-35B-A3B模型,无需H100或多卡配置。

RustMoELLM推理本地部署Qwen3.5CUDABlackwell量化消费级GPU
发布时间 2026/04/24 18:13最近活动 2026/04/24 18:19预计阅读 3 分钟
Chimere:在消费级显卡上运行350亿参数MoE模型的Rust推理引擎
1

章节 01

Chimere:消费级GPU上运行350亿参数MoE模型的Rust推理引擎导读

Chimere项目核心导读

Chimere是一款完全用Rust编写的推理运行时,专为混合状态空间模型(SSM)与混合专家模型(MoE)架构优化。其核心突破在于:在单张16GB显存的消费级GPU(如RTX 5060 Ti)上,可流畅运行350亿参数的Qwen3.5-35B-A3B模型,生成速度达约94 tokens/秒,无需高端数据中心GPU。项目支持OpenAI兼容API,兼顾性能、部署便捷性与数据隐私需求。

2

章节 02

项目背景与核心定位

项目背景与核心定位

大型语言模型推理长期面临"有限硬件资源难以运行大参数模型"的痛点。Chimere项目的核心目标是打破这一壁垒:针对Qwen3.5-35B-A3B(350亿参数,Gated DeltaNet+MoE架构),实现其在消费级GPU上的高效运行,让普通开发者与用户也能享受大模型推理能力,无需依赖H100等高端硬件。

3

章节 03

技术架构与核心优化

技术架构与核心优化

  1. 技术栈基础:基于ik_llama.cpp深度定制分支(支持Mamba-2/Nemotron-H架构,已提交PR回馈社区),Rust端到端实现,编译为单二进制文件,通过axum框架提供OpenAI兼容HTTP服务。
  2. 多架构调度:通过AppStateModel枚举自动路由请求,新增架构仅需扩展枚举与加载器。
  3. Engram记忆系统:n-gram对数偏置机制,预建4个领域表(kine/code/cyber/general),通过FNV-1a哈希与Cuckoo过滤器索引,实现token级个性化。
  4. CUDA与量化优化:原生支持NVIDIA Blackwell架构(sm_120),采用TurboQuant风格K缓存优化(Hadamard旋转键+Q8_0/Q4_0 KV量化),在几乎不损失质量的前提下提升8%吞吐。
4

章节 04

性能基准与实际表现

性能基准与实际表现

根据官方测试,Chimere在RTX 5060 Ti上的表现如下:

  • Qwen3.5-35B-A3B(自定义IQK量化):64K上下文下生成速度约80 tokens/秒,预填充789 tokens/秒,首token延迟80ms,显存占用15.3GB;
  • Nemotron-3-Nano-30B-A3B(Q4_0量化):生成速度约45 tokens/秒。 这些数据证明消费级硬件可获得接近云端API的响应体验。
5

章节 05

多模型支持与部署生态

多模型支持与部署生态

  1. 多模型兼容:除Qwen3.5系列外,已验证支持Nemotron-3-Nano-30B-A3B等混合架构模型,未来计划扩展Granite 4.0、Falcon-H1等。
  2. 部署流程:需克隆构建ik_llama.cpp后端与chimere-server,依赖CUDA 12.8+、Rust 1.80+;通过环境变量配置模型路径等参数,启动后提供OpenAI兼容API(支持流式聊天、工具调用等)。
  3. 生态系统:作为AIdevsmartdata生态一部分,配套项目包括chimere-odo(Python编排器)、chimere-studio(Tauri UI)、ramp-quant(量化流水线)等。
6

章节 06

结论与未来展望

结论与未来展望

Chimere通过系统级优化(Rust性能、CUDA内核、量化策略),证明消费级硬件可胜任大模型推理任务,推动AI民主化与边缘计算发展。未来将持续扩展模型支持,有望成为本地LLM部署的首选运行时之一,为数据隐私敏感场景提供可靠解决方案。