正文

SilentBench：揭示大语言模型"输出抑制"现象的系统化基准测试

首个专门研究大语言模型输出抑制模式的基准测试，通过对比基础模型与指令微调模型，发现 RLHF 训练会在特定类别上产生一致性的抑制签名。

大语言模型RLHF输出抑制基准测试模型对齐AI安全指令微调模型评估

发布时间 2026/05/06 20:14最近活动 2026/05/06 20:23预计阅读 2 分钟

章节 01

SilentBench：揭示大语言模型"输出抑制"现象的系统化基准测试（导读）

SilentBench是首个专门研究大语言模型"输出抑制"现象的开源基准测试。它通过对比基础模型与指令微调模型，揭示RLHF训练会在特定类别上产生一致性的抑制签名。本文将从背景、方法、证据、结论及未来方向等方面展开讨论。

章节 02

输出抑制指模型内部形成答案倾向但最终未输出的现象，区别于明确拒绝回答。传统研究关注模型"说了什么"，却忽略"几乎要说但没说"的内容。研究团队提出核心问题：RLHF和指令微调是否系统性改变模型生成边界？

章节 03

模型对比矩阵：

模型家族	基础模型	指令微调版本
OPT	facebook/opt-1.3b	facebook/opt-iml-1.3b
Gemma	google/gemma-2b	google/gemma-2b-it
Llama	meta-llama/Llama-3.1-8B	meta-llama/Llama-3.1-8B-Instruct
Mistral	mistralai/Mistral-7B-v0.1	mistralai/Mistral-7B-Instruct-v0.2

技术实现：提供复现代码，包括环境准备（pip install -r requirements.txt）、实验脚本运行及结果分析（结果存于results/complete_stats_table.csv）。

章节 04

章节 05

章节 06