# DGAO：用强化学习解决大语言模型的顺序敏感性问题

> 香港中文大学（深圳）与百度研究院联合提出DGAO框架，首次将强化学习引入大语言模型顺序公平性研究，在提升模型准确率的同时显著降低顺序敏感性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-12T11:31:18.000Z
- 最近活动: 2026-05-13T02:47:59.552Z
- 热度: 131.7
- 关键词: 大语言模型, 顺序公平性, 强化学习, RAG, DGAO, 机器学习
- 页面链接: https://www.zingnex.cn/forum/thread/dgao
- Canonical: https://www.zingnex.cn/forum/thread/dgao
- Markdown 来源: ingested_event

---

# DGAO：用强化学习解决大语言模型的顺序敏感性问题\n\n## 引言：被忽视的顺序偏见\n\n大语言模型（LLM）在处理输入时存在一个鲜为人知但影响深远的问题：**顺序敏感性**（Order Sensitivity）。简单来说，同样的信息以不同顺序呈现给模型时，可能会得到截然不同的输出质量。这种现象在RAG（检索增强生成）、上下文学习（In-Context Learning）等场景中尤为突出。\n\n想象一下，你向模型提问时，先提供文档A再提供文档B，与先提供文档B再提供文档A，得到的答案质量可能有显著差异。这种不公平性不仅影响了模型的可靠性，也限制了其在关键任务中的应用。\n\n## 现有方法的困境\n\n针对顺序敏感性问题，学术界已经提出了一些解决方案，但都存在明显局限：\n\n**基于统计或搜索的方法**试图找到最优或次优的输入排列顺序。这类方法的问题在于：它们增加了推理阶段的开销，而且并没有从根本上解决模型固有的顺序偏见，只是试图绕开它。\n\n**监督微调方法**通过使用多种顺序变体的增强训练集进行微调。虽然这能在一定程度上缓解顺序敏感性，但往往以牺牲准确率为代价——模型可能变得过于"稳定"，即使面对错误的信息也坚持一致的幻觉输出。\n\n## DGAO：双组优势优化框架\n\n香港中文大学（深圳）与百度研究院的研究团队提出了**DGAO（Dual Group Advantage Optimization，双组优势优化）**框架，这是首个将强化学习应用于解决LLM顺序敏感性的工作。\n\n### 核心思想\n\nDGAO的核心创新在于同时优化两个维度：\n\n1. **组内相对准确率优势（Intra-group Relative Accuracy Advantage）**：鼓励模型在相同输入顺序下产生正确的输出\n2. **组间相对稳定性优势（Inter-group Relative Stability Advantage）**：鼓励模型在不同输入顺序下保持稳定的表现\n\n通过平衡这两个目标，DGAO能够奖励那些既准确又顺序稳定的输出，同时惩罚顺序敏感或错误的响应。\n\n### 技术实现\n\nDGAO采用强化学习的训练范式。在训练过程中，系统会：\n\n- 对同一组输入生成多种顺序变体\n- 评估模型在不同顺序下的表现\n- 计算准确率优势和稳定性优势\n- 通过策略梯度更新模型参数\n\n这种训练方式让模型学会"看穿"输入顺序的表象，专注于内容本身的语义理解。\n\n## 新指标：揭示伪稳定性\n\n研究团队还提出了两个新的评估指标：\n\n**一致性率（Consistency Rate）**：衡量模型在不同输入顺序下输出一致性的程度。\n\n**过度自信率（Overconfidence Rate）**：揭示模型在错误答案上表现出的虚假稳定性——即模型即使在产生幻觉时也保持高度一致的问题。\n\n这两个指标为评估顺序公平性提供了更全面的视角，能够识别出那些表面稳定但实际错误的模型行为。\n\n## 实验结果\n\n在RAG、数学推理和分类任务上的广泛实验表明：\n\n- DGAO在保持高准确率的同时，显著降低了顺序敏感性\n- 相比现有方法，DGAO在顺序公平性方面表现更优\n- 模型展现出更好的泛化能力，能够适应不同领域和任务\n\n特别值得注意的是，DGAO不仅解决了顺序敏感性问题，还在多个基准测试上提升了模型的整体性能，实现了"鱼和熊掌兼得"的效果。\n\n## 意义与展望\n\nDGAO的意义不仅在于提出了一种新的训练方法，更重要的是它开辟了一个研究方向：用强化学习来提升模型的鲁棒性和公平性。\n\n随着LLM在更多关键场景中的应用，顺序公平性将变得越来越重要。DGAO提供了一种可扩展的解决方案，为未来模型的训练提供了新的思路。\n\n项目代码已开源：https://github.com/Hyalinesky/DGAO\n\n## 结语\n\n大语言模型的顺序敏感性问题长期被忽视，但它实实在在地影响着模型的可靠性和公平性。DGAO通过强化学习的巧妙应用，为这一问题提供了优雅的解决方案。这项工作提醒我们：在追求模型能力的同时，也要关注模型行为的公平性和一致性。
