正文

Zero：面向安全研究的最小可行推理模型

Zero 是一个开源的小型语言模型家族，专门训练用于像资深安全研究员一样直接推理安全问题。它不回避、不粉饰，直接指出问题所在。

安全推理语言模型CTF网络安全开源模型GRPO对抗训练

发布时间 2026/05/27 09:15最近活动 2026/05/27 09:23预计阅读 2 分钟

章节 01

Zero模型：专注安全推理的小型开源模型家族导读

Zero是一个开源的小型语言模型家族，专门训练用于像资深安全研究员一样直接推理安全问题。它针对当前大型语言模型处理安全问题时模棱两可的痛点，秉持“不回避、不粉饰”的核心理念，致力于给出直接、准确的安全领域回答。项目探索实现真正安全推理所需的最小模型规模及能力迁移性，训练数据来自CTF竞赛挑战，采用GRPO对抗自博弈训练。

章节 02

项目背景与动机：解决大模型安全回答模棱两可的痛点

当前大型语言模型处理安全相关问题时，常给出模棱两可的“对冲式”回答，降低风险却难以提供有用洞察。Zero项目因此而生，核心理念为“不回避、不粉饰”，目标是训练出能像资深安全研究员一样直接指出问题本质的模型，即使结论可能令人不安。

章节 03

训练方法与奖励机制：对抗自博弈与校准反馈

Zero采用对抗自博弈（adversarial self-play）框架训练，奖励函数设计体现核心价值观：校准的不确定性获得奖励（正确识别知识边界并表达不确定时）；自信的错误答案受最严厉惩罚。此机制鼓励模型形成健康元认知，知道自己知道与不知道的内容。训练还使用GRPO（Generalized Reward Policy Optimization）对抗自博弈训练。

章节 04

模型家族规划与当前进展

Zero计划分阶段发布三个规模模型：zero-1.5b（最小可行推理下限，规划中）、zero-3b（主力版本，规划中）、zero-7b（最小可行推理上限，规划中），以探索规模与安全推理能力的权衡。当前处于第一阶段基线测绘（进行中），团队建立不同规模模型训练前的推理能力基线，技术规范已记录在SPEC.md文件中。

章节 05

实际意义与潜在影响：专业领域深度优化的新范式

Zero项目意义在于提供专门安全推理模型，更探索针对特定专业领域深度优化的新训练范式。对安全研究员：获得直接指出漏洞的AI助手，减少筛选信息成本，拥有CTF级别训练的虚拟队友。对AI领域：提供研究模型规模与专业能力关系的实验平台。

章节 06

开源许可与社区参与

Zero采用Apache 2.0许可证开源，代码和模型权重将在训练完成后公开发布。项目欢迎社区贡献，尤其在评估基准和数据集构建方面。

章节 07

结语：直接性哲学的价值与未来展望

在安全领域，模棱两可的建议可能比明确错误更危险，易产生虚假安全感。Zero的直接性哲学代表更有价值的AI辅助方式：不取悦用户，而是帮助理解风险。期待这个小而专注的模型家族能在安全推理领域挑战甚至超越通用大模型表现。

Zero：面向安全研究的最小可行推理模型

Zero模型：专注安全推理的小型开源模型家族导读

项目背景与动机：解决大模型安全回答模棱两可的痛点

训练方法与奖励机制：对抗自博弈与校准反馈

模型家族规划与当前进展

实际意义与潜在影响：专业领域深度优化的新范式

开源许可与社区参与

结语：直接性哲学的价值与未来展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统