正文

DGAO：用强化学习解决大语言模型的顺序敏感性问题

香港中文大学（深圳）与百度研究院联合提出DGAO框架，首次将强化学习引入大语言模型顺序公平性研究，在提升模型准确率的同时显著降低顺序敏感性。

大语言模型顺序公平性强化学习RAGDGAO机器学习

发布时间 2026/05/12 19:31最近活动 2026/05/13 10:47预计阅读 2 分钟

章节 01

【导读】DGAO框架：用强化学习解决大语言模型顺序敏感性问题

香港中文大学（深圳）与百度研究院联合提出DGAO（双组优势优化）框架，首次将强化学习引入大语言模型（LLM）顺序公平性研究，在提升模型准确率的同时显著降低顺序敏感性，为解决LLM的顺序偏见问题提供新方案。

章节 02

背景：LLM顺序敏感性问题及现有方法局限

顺序敏感性问题

大语言模型处理输入时存在顺序敏感性：相同信息以不同顺序呈现，输出质量可能截然不同，尤其影响RAG、上下文学习等场景，降低模型可靠性与公平性。

现有方法困境

统计/搜索方法：试图找最优输入排列，但增加推理开销，未根本解决顺序偏见；
监督微调方法：用多顺序变体训练，缓解敏感但牺牲准确率，易导致模型对错误信息过度稳定（幻觉输出）。

章节 03

DGAO框架：双组优势优化的核心设计

核心思想

DGAO通过同时优化两个维度实现目标：

组内相对准确率优势：鼓励相同输入顺序下输出正确；
组间相对稳定性优势：鼓励不同输入顺序下表现稳定。

技术实现

采用强化学习训练范式：

对同一组输入生成多种顺序变体；
评估模型在不同顺序下的表现；
计算准确率与稳定性优势；
通过策略梯度更新参数，让模型专注内容语义而非输入顺序。

章节 04

新评估指标：识别伪稳定性的关键工具

研究团队提出两个新指标，全面评估顺序公平性：

一致性率：衡量不同输入顺序下输出的一致性程度；
过度自信率：揭示模型在错误答案上的虚假稳定性（幻觉时仍保持一致），可识别表面稳定但实际错误的行为。

章节 05

实验证据：DGAO的性能表现

在RAG、数学推理、分类任务上的实验结果：

保持高准确率的同时显著降低顺序敏感性；
顺序公平性优于现有方法；
泛化能力强，适应不同领域与任务；
提升模型整体性能，实现准确率与稳定性平衡。

章节 06

意义与展望：强化学习助力模型公平性研究

研究意义

DGAO开辟了强化学习提升LLM鲁棒性与公平性的新方向。

未来展望

随着LLM在关键场景应用增多，顺序公平性将更重要。DGAO提供可扩展解决方案，为模型训练提供新思路。

开源信息

项目代码已开源：https://github.com/Hyalinesky/DGAO

章节 07

结语：关注LLM的公平性与一致性

LLM的顺序敏感性问题长期被忽视，但切实影响模型可靠性与公平性。DGAO通过强化学习的巧妙应用，为该问题提供优雅解决方案。这项工作提醒我们：追求模型能力的同时，需关注其行为的公平性与一致性。