正文

GPS框架：让大语言模型学会主动提问的图引导方法

GPS（Graph-guided Proactive Information Seeking）是一种创新的训练框架，通过图结构引导大语言模型主动寻求信息，解决复杂问答任务中的信息缺口问题。

GPS主动信息寻求大语言模型图引导强化学习DAPOCondQA问答系统ICLR 2026

发布时间 2026/04/26 15:34最近活动 2026/04/26 15:51预计阅读 2 分钟

章节 01

【导读】GPS框架：让大模型学会主动提问的图引导方法

GPS（Graph-guided Proactive Information Seeking）是北京大学等机构研究团队提出的创新训练框架，通过图结构引导大语言模型主动寻求信息，解决复杂问答任务中的信息缺口问题。该工作已被ICLR 2026接收，核心是利用图建模信息依赖关系+强化学习优化主动信息寻求策略，使模型从被动回答转向主动协作，提升复杂场景下的问答准确性与可靠性。

章节 02

背景：大模型的“信息盲区”难题

当前大语言模型假设拥有完成任务的全部信息，但真实场景中常因信息不完整给出错误答案，尤其在医疗诊断、法律咨询等高风险领域风险显著。如何让模型学会主动提问、识别知识边界并寻求必要信息，成为AI研究前沿方向。

章节 03

GPS框架的核心思想

GPS的核心洞察是用图结构建模复杂问题的信息依赖关系，引导模型学会何时、向谁、问什么问题。它打破传统一次性信息获取模式，引入迭代式信息寻求循环：模型需判断是否拥有足够信息，若不足则明确所需信息及询问对象，实现从被动知识库到主动协作者的转变。

章节 04

技术实现：图结构与强化学习结合

图引导的信息依赖建模

将问题信息依赖关系建模为有向图，节点代表信息单元（实体、属性、关系），边代表依赖关系，提供清晰信息需求蓝图与可解释中间表示。

基于DAPO的强化学习训练

采用DAPO（Direct Preference Optimization for Active Perception）算法，基于verl框架分布式训练，优化信息寻求效率（最少询问次数获取关键信息）。训练流程含数据预处理（CondQA转parquet）、策略训练、多测试集评估（DAG、条件问答、SHARC）确保泛化。

章节 05

实验结果与性能表现

在CondQA基准测试中，GPS优于传统端到端模型，在主动信息寻求场景准确率显著提升，平衡“足够”与“冗余”信息。开源实现基于Qwen2.5-7B-Instruct，用4块GPU训练、vLLM推理加速，硬件要求适中，训练脚本提供丰富配置选项。

章节 06

应用场景与未来展望

GPS可应用于客户服务（智能对话机器人）、医疗咨询（辅助收集患者信息）、教育辅导（识别知识盲点）等场景。未来大模型将向动态交互智能体发展，主动探索与学习。代码已基于verl框架开源，为社区研究提供便利，为下一代AI系统奠定主动信息寻求技术基础。

GPS框架：让大语言模型学会主动提问的图引导方法

【导读】GPS框架：让大模型学会主动提问的图引导方法

背景：大模型的“信息盲区”难题

GPS框架的核心思想

技术实现：图结构与强化学习结合

图引导的信息依赖建模

基于DAPO的强化学习训练

实验结果与性能表现

应用场景与未来展望

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎