章节 01
Zero模型:专注安全推理的小型开源模型家族导读
Zero是一个开源的小型语言模型家族,专门训练用于像资深安全研究员一样直接推理安全问题。它针对当前大型语言模型处理安全问题时模棱两可的痛点,秉持“不回避、不粉饰”的核心理念,致力于给出直接、准确的安全领域回答。项目探索实现真正安全推理所需的最小模型规模及能力迁移性,训练数据来自CTF竞赛挑战,采用GRPO对抗自博弈训练。
正文
Zero 是一个开源的小型语言模型家族,专门训练用于像资深安全研究员一样直接推理安全问题。它不回避、不粉饰,直接指出问题所在。
章节 01
Zero是一个开源的小型语言模型家族,专门训练用于像资深安全研究员一样直接推理安全问题。它针对当前大型语言模型处理安全问题时模棱两可的痛点,秉持“不回避、不粉饰”的核心理念,致力于给出直接、准确的安全领域回答。项目探索实现真正安全推理所需的最小模型规模及能力迁移性,训练数据来自CTF竞赛挑战,采用GRPO对抗自博弈训练。
章节 02
当前大型语言模型处理安全相关问题时,常给出模棱两可的“对冲式”回答,降低风险却难以提供有用洞察。Zero项目因此而生,核心理念为“不回避、不粉饰”,目标是训练出能像资深安全研究员一样直接指出问题本质的模型,即使结论可能令人不安。
章节 03
Zero采用对抗自博弈(adversarial self-play)框架训练,奖励函数设计体现核心价值观:校准的不确定性获得奖励(正确识别知识边界并表达不确定时);自信的错误答案受最严厉惩罚。此机制鼓励模型形成健康元认知,知道自己知道与不知道的内容。训练还使用GRPO(Generalized Reward Policy Optimization)对抗自博弈训练。
章节 04
Zero计划分阶段发布三个规模模型:zero-1.5b(最小可行推理下限,规划中)、zero-3b(主力版本,规划中)、zero-7b(最小可行推理上限,规划中),以探索规模与安全推理能力的权衡。当前处于第一阶段基线测绘(进行中),团队建立不同规模模型训练前的推理能力基线,技术规范已记录在SPEC.md文件中。
章节 05
Zero项目意义在于提供专门安全推理模型,更探索针对特定专业领域深度优化的新训练范式。对安全研究员:获得直接指出漏洞的AI助手,减少筛选信息成本,拥有CTF级别训练的虚拟队友。对AI领域:提供研究模型规模与专业能力关系的实验平台。
章节 06
Zero采用Apache 2.0许可证开源,代码和模型权重将在训练完成后公开发布。项目欢迎社区贡献,尤其在评估基准和数据集构建方面。
章节 07
在安全领域,模棱两可的建议可能比明确错误更危险,易产生虚假安全感。Zero的直接性哲学代表更有价值的AI辅助方式:不取悦用户,而是帮助理解风险。期待这个小而专注的模型家族能在安全推理领域挑战甚至超越通用大模型表现。