章节 01
SilentBench:揭示大语言模型"输出抑制"现象的系统化基准测试(导读)
SilentBench是首个专门研究大语言模型"输出抑制"现象的开源基准测试。它通过对比基础模型与指令微调模型,揭示RLHF训练会在特定类别上产生一致性的抑制签名。本文将从背景、方法、证据、结论及未来方向等方面展开讨论。
正文
首个专门研究大语言模型输出抑制模式的基准测试,通过对比基础模型与指令微调模型,发现 RLHF 训练会在特定类别上产生一致性的抑制签名。
章节 01
SilentBench是首个专门研究大语言模型"输出抑制"现象的开源基准测试。它通过对比基础模型与指令微调模型,揭示RLHF训练会在特定类别上产生一致性的抑制签名。本文将从背景、方法、证据、结论及未来方向等方面展开讨论。
章节 02
输出抑制指模型内部形成答案倾向但最终未输出的现象,区别于明确拒绝回答。传统研究关注模型"说了什么",却忽略"几乎要说但没说"的内容。研究团队提出核心问题:RLHF和指令微调是否系统性改变模型生成边界?
章节 03
| 模型家族 | 基础模型 | 指令微调版本 |
|---|---|---|
| OPT | facebook/opt-1.3b | facebook/opt-iml-1.3b |
| Gemma | google/gemma-2b | google/gemma-2b-it |
| Llama | meta-llama/Llama-3.1-8B | meta-llama/Llama-3.1-8B-Instruct |
| Mistral | mistralai/Mistral-7B-v0.1 | mistralai/Mistral-7B-Instruct-v0.2 |
pip install -r requirements.txt)、实验脚本运行及结果分析(结果存于results/complete_stats_table.csv)。章节 04
章节 05
章节 06