# ZAYA1-8B：小体量MoE模型挑战大模型推理性能的新标杆

> 本文介绍ZAYA1-8B，一个仅700M激活参数的MoE推理模型，通过四阶段RL训练和Markovian RSA测试时计算方法，在AIME'25上达到91.9%，逼近Gemini-2.5 Pro等超大模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-06T18:44:08.000Z
- 最近活动: 2026-05-08T04:20:53.131Z
- 热度: 126.4
- 关键词: ZAYA1-8B, 混合专家模型, 推理模型, 测试时计算, MoE, AIME, 数学推理, AMD
- 页面链接: https://www.zingnex.cn/forum/thread/zaya1-8b-moe
- Canonical: https://www.zingnex.cn/forum/thread/zaya1-8b-moe
- Markdown 来源: ingested_event

---

# ZAYA1-8B：小体量MoE模型挑战大模型推理性能的新标杆\n\n## 小模型的大野心\n\n在大语言模型领域，一个普遍的认知是：**推理能力与模型规模正相关**。DeepSeek-R1、Gemini-2.5 Pro等顶尖推理模型往往拥有数百亿甚至上千亿的参数量。然而，ZAYA1-8B的发布挑战了这一认知——这个仅有**700M激活参数**（8B总参数）的混合专家模型，在多个高难度推理基准上达到了与超大模型相媲美的性能。\n\n## 模型架构与训练基础设施\n\n### MoE++架构\n\nZAYA1-8B基于Zyphra的MoE++架构构建。这一架构的关键特性包括：\n\n- **稀疏激活**：每次推理仅激活约700M参数，计算成本与同等规模的密集模型相当\n- **专家路由优化**：改进的路由机制确保专家负载均衡，避免部分专家过载或闲置\n- **高效推理**：支持动态专家卸载，可在资源受限环境中灵活部署\n\n### 全栈AMD平台训练\n\n值得注意的是，ZAYA1-8B的完整训练流程——从预训练到后训练——都在AMD的全栈计算平台上完成。这包括AMD Instinct加速器、ROCm软件栈以及相关的网络基础设施。这一选择证明了AMD平台在大模型训练领域的竞争力，也为硬件生态多样性提供了有力支撑。\n\n## 从头开始的推理导向训练\n\n与许多在通用模型基础上进行推理微调的方法不同，ZAYA1-8B采用了**从头训练的推理导向策略**：\n\n### 预训练阶段的推理数据注入\n\nZAYA1-8B在预训练阶段就开始引入推理数据。研究团队设计了一种**答案保留裁剪方案**，确保推理相关的训练样本在tokenization过程中不会丢失关键信息。这种早期注入使模型在基础能力形成阶段就建立起推理思维模式。\n\n### 四阶段强化学习后训练\n\n后训练阶段采用了精心设计的四阶段RL级联：\n\n**第一阶段：推理热身**\n\n在数学问题和逻辑谜题上进行初步RL训练，激活模型的基础推理能力。这一阶段使用标准的PPO/GRPO算法，建立策略优化的稳定基础。\n\n**第二阶段：RLVE-Gym课程学习**\n\n引入包含400个任务的RLVE-Gym课程，覆盖从基础算术到高级数学证明的广泛难度谱系。课程学习确保模型能力循序渐进地提升。\n\n**第三阶段：数学与代码专项RL**\n\n结合测试时计算轨迹和基于竞赛编程参考构建的合成代码环境，进行深度专项训练。这一阶段特别注重长程推理链的稳定性。\n\n**第四阶段：行为RL**\n\n最后进行对话和指令遵循的行为优化，确保模型在保持强大推理能力的同时，具备良好的交互体验。\n\n## Markovian RSA：高效的测试时计算\n\nZAYA1-8B的另一大创新是**Markovian RSA**（Recursive Self-Aggregation），一种新颖的测试时计算方法。\n\n### 核心思想\n\n传统测试时计算（Test-Time Compute, TTC）方法通常需要维护完整的推理历史，导致上下文窗口迅速耗尽。Markovian RSA采用了一种更高效的策略：\n\n**递归聚合**：并行生成多条推理轨迹，每轮迭代中递归地聚合这些轨迹的信息\n\n**有界尾迹**：在轮次间只传递固定长度（如4K token）的推理尾迹，而非完整历史\n\n**马尔可夫性质**：每轮决策仅依赖当前尾迹状态，不直接依赖更早的历史，大大减少了上下文负担\n\n### 性能表现\n\n在TTC评估中，Markovian RSA将ZAYA1-8B的性能提升到：\n\n| 基准 | 性能 |
|------|------|
| AIME'25 | **91.9%** |
| HMMT'25 | **89.6%** |
\n这一成绩不仅远超同等规模的模型，甚至逼近了Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High等超大模型。更重要的是，这些结果是在仅携带4K token尾迹的情况下实现的，展示了极高的计算效率。\n\n## 基准测试结果对比\n\nZAYA1-8B在多个挑战性基准上展现了强劲性能：\n\n### 数学推理\n\n- **AIME'25**: 91.9%（TTC）\n- **HMMT'25**: 89.6%（TTC）\n- 与DeepSeek-R1-0528相当或超越\n\n### 代码生成\n\n在编程竞赛类基准上，ZAYA1-8B同样表现出色，与更大规模的专用代码模型竞争。\n\n### 综合推理\n\n在需要多步推理的复杂任务上，ZAYA1-8B展示了稳定的性能，证明了其推理能力的泛化性。\n\n## 技术启示\n\nZAYA1-8B的成功提供了几个重要的技术启示：\n\n**规模不是唯一答案**：通过精心设计的训练策略和架构优化，小模型也能在推理任务上挑战大模型。这为资源受限场景下的高性能AI部署提供了可能。\n\n**训练质量重于模型规模**：四阶段RL级联和推理导向的预训练表明，训练数据的质量和训练流程的设计可能比单纯的参数量更重要。\n\n**测试时计算的新范式**：Markovian RSA展示了如何在有限的上下文窗口内实现高效的测试时计算扩展，这对长程推理任务具有重要意义。\n\n**硬件生态多样性**：全AMD平台的训练成功，证明了非NVIDIA生态在大模型训练中的可行性，有助于降低行业对单一硬件供应商的依赖。\n\n## 应用场景\n\nZAYA1-8B的紧凑体量使其适用于多种场景：\n\n**边缘设备部署**：700M激活参数可在消费级GPU甚至高端CPU上高效运行\n\n**实时推理服务**：低延迟特性适合在线问答、代码补全等实时应用\n\n**成本敏感场景**：推理成本远低于超大模型，适合大规模部署\n\n**推理能力基准**：为研究社区提供了一个强有力的中小规模推理模型基准\n\n## 结语\n\nZAYA1-8B证明了：**高效不等于妥协**。通过MoE架构、推理导向训练和Markovian RSA等创新，这个仅有700M激活参数的模型在顶尖推理基准上达到了与数十倍规模模型相媲美的性能。这一成果不仅为小模型研究树立了新标杆，更为AI的普及化和民主化提供了可行路径。