# Chain-of-Models：通过跨模型族推理链审计缓解LLM评判中的认知偏见

> Chain-of-Models是ICLR 2026的研究成果，提出通过多模型链式推理和跨家族审计来缓解LLM-as-judge场景中的认知偏见问题。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-25T06:08:55.000Z
- 最近活动: 2026-04-25T06:21:37.891Z
- 热度: 167.8
- 关键词: Chain-of-Models, LLM-as-judge, 认知偏见, ICLR 2026, 模型链, 偏见缓解, 推理审计, 跨模型族, 权威偏见, 从众偏见, 模型评估, RLHF
- 页面链接: https://www.zingnex.cn/forum/thread/chain-of-models-llm
- Canonical: https://www.zingnex.cn/forum/thread/chain-of-models-llm
- Markdown 来源: ingested_event

---

# Chain-of-Models：通过跨模型族推理链审计缓解LLM评判中的认知偏见

随着大型语言模型（LLM）越来越多地被用作评判者（LLM-as-judge）来评估文本质量、回答准确性或进行偏好排序，一个关键问题逐渐浮现：LLM本身是否会在评判过程中受到认知偏见的影响？ICLR 2026的这项研究给出了肯定的答案，并提出了一种创新的解决方案——Chain-of-Models（模型链）。

## 研究背景：LLM-as-judge的认知偏见问题

在当前的AI系统中，LLM-as-judge已经成为一种广泛采用的评估范式。从RLHF（基于人类反馈的强化学习）到自动化的模型评估基准，LLM评判者无处不在。然而，这些评判者并非完美——它们会像人类一样受到各种认知偏见的影响。

研究团队识别了几种关键的偏见类型：

**权威偏见（Authority Bias）**：当回答中引用权威来源或专家观点时，LLM倾向于给予更高评分，即使内容本身存在错误。

**从众偏见（Bandwagon/Social-Proof Bias）**：当某个观点被多次重复或看似获得广泛认同时，LLM更容易接受其为正确。

**位置偏见（Position Bias）**：在比较两个回答时，LLM可能因回答出现的顺序（先或后）而产生系统性偏好。

**干扰偏见（Distraction Bias）**：无关但看似专业的信息可能分散LLM注意力，影响其对核心内容的判断。

这些偏见不仅影响评估的公正性，还可能在训练过程中被放大，导致模型性能的系统性偏差。

## Chain-of-Models的核心思想

Chain-of-Models的核心理念是：单一模型的评判容易受偏见影响，但通过精心设计的模型链——让多个来自不同模型家族的LLM依次审计前一个模型的推理过程——可以有效识别和纠正这些偏见。

这与传统的集成方法（如多数投票）有本质区别。多数投票只是聚合最终答案，而Chain-of-Models审计的是推理过程本身。研究表明，简单的多数投票在面对某些偏见时甚至会完全失效（准确率降至0%），而审计推理链能够发现偏见产生的根源。

## 关键发现：链式设计的艺术

研究揭示了几个反直觉但重要的发现：

**精心选择的2模型链胜过6模型链**。研究发现，一个经过优化的2模型链在权威偏见任务上提升了16.3个百分点，而成本仅为2倍。相比之下，一个包含6个模型（跨越所有家族）的朴素链表现更差。原因在于：如果链中的某个评审模型本身容易受到特定偏见的影响，它不仅无法纠正错误，反而会放大前序模型的偏差。

**模型选择比链长度更重要**。盲目增加模型数量并不能带来更好的效果。关键在于选择具有互补偏见抵抗特性的模型。研究团队建立了偏见抵抗分数和功能DNA距离两个指标来指导模型选择。

**多样性投票在面对社会证明偏见时完全崩溃**。当测试面对从众偏见时，即使使用三个不同家族的模型进行多数投票，准确率也降至0%。这说明聚合最终答案无法解决推理过程中的偏见问题。

**朴素链式可能传播偏见**。如果链中包含易受特定偏见影响的模型，偏见会在链中传播而非被纠正。这强调了评审模型选择的重要性。

## 技术实现：从研究到可部署的技能

项目提供了完整的代码实现，包括：

**评估框架**：bandwagon_evaluation/multimodel_chain/目录包含多偏见事实评估和主观评估的完整脚本，支持权威、从众、位置、干扰等多种偏见类型的测试。

**模型DNA提取**：compute_model_dna.py脚本可以提取模型的功能DNA，用于量化模型间的功能差异，指导链的构建。

**可插拔技能**：skill/目录提供了一个可直接集成到任何LLM Agent的评判技能。通过简单的文件复制和API调用，开发者可以在自己的系统中使用Chain-of-Models进行偏见缓解。

使用方法示例：通过命令行指定链配置、偏见类型和数据集，即可运行完整的评估流程。项目还提供了预计算的偏见抵抗分数和模型间DNA距离数据，方便快速上手。

## 支持的模型家族

研究涵盖了当前主流的多个模型家族，确保实验结果的普适性：

- Qwen 2.5系列（7B到72B参数）
- GPT-4o系列（mini到完整版）
- DeepSeek系列（R1蒸馏版到V3）
- GLM-5、MiniMax-M2.5、Kimi-K2.5等国产大模型

这种跨家族的覆盖确保了研究结论的广泛适用性，不受限于特定厂商的模型。

## 可验证性瓶颈与未来方向

研究也指出了当前方法的局限性——可验证性瓶颈。Chain-of-Models在事实性任务上表现优异，因为评审模型可以基于客观事实验证前序推理。但在主观性任务上，由于缺乏ground truth，改进效果会趋于平缓。这为多模型偏见缓解方法设定了一个理论上限。

未来的研究方向可能包括：开发更精细的模型选择算法自动构建最优模型链；探索动态链长度调整根据任务复杂度决定评审轮数；研究偏见抵抗能力的可迁移性训练专门用于审计的模型。

## 实践意义

对于构建LLM评估系统的开发者来说，这项研究提供了几个重要启示：

1. 不要盲目相信单一模型的评判，即使是最先进的模型也可能受到偏见影响
2. 简单的多数投票不足以解决偏见问题，需要深入审计推理过程
3. 模型多样性很重要，但选择比数量更重要——选择与主模型偏见特性互补的评审模型
4. 偏见抵抗应该成为模型选择的重要考量，与准确率和效率同等重要

Chain-of-Models为LLM-as-judge的可靠性问题提供了一个实用的解决方案，通过跨模型族的推理链审计，在不显著增加成本的情况下有效缓解了认知偏见的影响。