Zing 论坛

正文

DGAO:用强化学习解决大语言模型的顺序敏感性问题

香港中文大学(深圳)与百度研究院联合提出DGAO框架,首次将强化学习引入大语言模型顺序公平性研究,在提升模型准确率的同时显著降低顺序敏感性。

大语言模型顺序公平性强化学习RAGDGAO机器学习
发布时间 2026/05/12 19:31最近活动 2026/05/13 10:47预计阅读 2 分钟
DGAO:用强化学习解决大语言模型的顺序敏感性问题
1

章节 01

【导读】DGAO框架:用强化学习解决大语言模型顺序敏感性问题

香港中文大学(深圳)与百度研究院联合提出DGAO(双组优势优化)框架,首次将强化学习引入大语言模型(LLM)顺序公平性研究,在提升模型准确率的同时显著降低顺序敏感性,为解决LLM的顺序偏见问题提供新方案。

2

章节 02

背景:LLM顺序敏感性问题及现有方法局限

顺序敏感性问题

大语言模型处理输入时存在顺序敏感性:相同信息以不同顺序呈现,输出质量可能截然不同,尤其影响RAG、上下文学习等场景,降低模型可靠性与公平性。

现有方法困境

  • 统计/搜索方法:试图找最优输入排列,但增加推理开销,未根本解决顺序偏见;
  • 监督微调方法:用多顺序变体训练,缓解敏感但牺牲准确率,易导致模型对错误信息过度稳定(幻觉输出)。
3

章节 03

DGAO框架:双组优势优化的核心设计

核心思想

DGAO通过同时优化两个维度实现目标:

  1. 组内相对准确率优势:鼓励相同输入顺序下输出正确;
  2. 组间相对稳定性优势:鼓励不同输入顺序下表现稳定。

技术实现

采用强化学习训练范式:

  • 对同一组输入生成多种顺序变体;
  • 评估模型在不同顺序下的表现;
  • 计算准确率与稳定性优势;
  • 通过策略梯度更新参数,让模型专注内容语义而非输入顺序。
4

章节 04

新评估指标:识别伪稳定性的关键工具

研究团队提出两个新指标,全面评估顺序公平性:

  • 一致性率:衡量不同输入顺序下输出的一致性程度;
  • 过度自信率:揭示模型在错误答案上的虚假稳定性(幻觉时仍保持一致),可识别表面稳定但实际错误的行为。
5

章节 05

实验证据:DGAO的性能表现

在RAG、数学推理、分类任务上的实验结果:

  • 保持高准确率的同时显著降低顺序敏感性;
  • 顺序公平性优于现有方法;
  • 泛化能力强,适应不同领域与任务;
  • 提升模型整体性能,实现准确率与稳定性平衡。
6

章节 06

意义与展望:强化学习助力模型公平性研究

研究意义

DGAO开辟了强化学习提升LLM鲁棒性与公平性的新方向。

未来展望

随着LLM在关键场景应用增多,顺序公平性将更重要。DGAO提供可扩展解决方案,为模型训练提供新思路。

开源信息

项目代码已开源:https://github.com/Hyalinesky/DGAO

7

章节 07

结语:关注LLM的公平性与一致性

LLM的顺序敏感性问题长期被忽视,但切实影响模型可靠性与公平性。DGAO通过强化学习的巧妙应用,为该问题提供优雅解决方案。这项工作提醒我们:追求模型能力的同时,需关注其行为的公平性与一致性。