Zing 论坛

正文

GPS框架:让大语言模型学会主动提问的图引导方法

GPS(Graph-guided Proactive Information Seeking)是一种创新的训练框架,通过图结构引导大语言模型主动寻求信息,解决复杂问答任务中的信息缺口问题。

GPS主动信息寻求大语言模型图引导强化学习DAPOCondQA问答系统ICLR 2026
发布时间 2026/04/26 15:34最近活动 2026/04/26 15:51预计阅读 2 分钟
GPS框架:让大语言模型学会主动提问的图引导方法
1

章节 01

【导读】GPS框架:让大模型学会主动提问的图引导方法

GPS(Graph-guided Proactive Information Seeking)是北京大学等机构研究团队提出的创新训练框架,通过图结构引导大语言模型主动寻求信息,解决复杂问答任务中的信息缺口问题。该工作已被ICLR 2026接收,核心是利用图建模信息依赖关系+强化学习优化主动信息寻求策略,使模型从被动回答转向主动协作,提升复杂场景下的问答准确性与可靠性。

2

章节 02

背景:大模型的“信息盲区”难题

当前大语言模型假设拥有完成任务的全部信息,但真实场景中常因信息不完整给出错误答案,尤其在医疗诊断、法律咨询等高风险领域风险显著。如何让模型学会主动提问、识别知识边界并寻求必要信息,成为AI研究前沿方向。

3

章节 03

GPS框架的核心思想

GPS的核心洞察是用图结构建模复杂问题的信息依赖关系,引导模型学会何时、向谁、问什么问题。它打破传统一次性信息获取模式,引入迭代式信息寻求循环:模型需判断是否拥有足够信息,若不足则明确所需信息及询问对象,实现从被动知识库到主动协作者的转变。

4

章节 04

技术实现:图结构与强化学习结合

图引导的信息依赖建模

将问题信息依赖关系建模为有向图,节点代表信息单元(实体、属性、关系),边代表依赖关系,提供清晰信息需求蓝图与可解释中间表示。

基于DAPO的强化学习训练

采用DAPO(Direct Preference Optimization for Active Perception)算法,基于verl框架分布式训练,优化信息寻求效率(最少询问次数获取关键信息)。训练流程含数据预处理(CondQA转parquet)、策略训练、多测试集评估(DAG、条件问答、SHARC)确保泛化。

5

章节 05

实验结果与性能表现

在CondQA基准测试中,GPS优于传统端到端模型,在主动信息寻求场景准确率显著提升,平衡“足够”与“冗余”信息。开源实现基于Qwen2.5-7B-Instruct,用4块GPU训练、vLLM推理加速,硬件要求适中,训练脚本提供丰富配置选项。

6

章节 06

应用场景与未来展望

GPS可应用于客户服务(智能对话机器人)、医疗咨询(辅助收集患者信息)、教育辅导(识别知识盲点)等场景。未来大模型将向动态交互智能体发展,主动探索与学习。代码已基于verl框架开源,为社区研究提供便利,为下一代AI系统奠定主动信息寻求技术基础。