Zing 论坛

正文

InfoBuy:大小模型协同推理的"信息采购"策略学习框架

将大小模型协作推理建模为信息采购问题,小模型学习何时购买提示、何时购买验证、购买多少教师token以及是否信任所购信息。基于HSP协议实现,包含SFT和RL两阶段训练流程。

大小模型协同信息采购HSP协议强化学习GRPO模型蒸馏推理优化开源项目
发布时间 2026/06/06 10:55最近活动 2026/06/06 11:22预计阅读 3 分钟
InfoBuy:大小模型协同推理的"信息采购"策略学习框架
1

章节 01

InfoBuy框架导读:大小模型协同推理的信息采购策略

InfoBuy框架导读

InfoBuy是由nicebro123开源的大小模型协同推理框架,核心是将大小模型协作建模为信息采购问题:小模型学习何时购买提示、何时购买验证、购买多少教师token及是否信任所购信息。框架基于HSP协议实现,采用监督微调(SFT)+强化学习(RL)两阶段训练流程,为构建高效经济的AI系统提供新思路。

2

章节 02

研究背景与核心动机

研究背景与核心动机

大模型(如GPT-4)推理能力强但部署成本高、延迟大;小模型轻量高效却复杂推理能力有限。如何让小模型高效"借用"大模型能力同时保持独立性,成为关键问题。InfoBuy提出将协作转化为信息采购决策,让小模型动态调整求助策略。

3

章节 03

核心概念:HSP信息采购协议

核心概念:HSP信息采购协议

InfoBuy基于HSP协议定义结构化信息交换机制,小模型通过特定标记向大模型采购信息:

  • <ASK>N</ASK>:请求最多N个token的推理提示
  • <VERIFY>N</VERIFY>:请求最多N个token的验证服务
  • <ACCEPT>:采纳并信任教师模型反馈
4

章节 04

技术架构:两阶段训练流程(SFT+RL)

技术架构:两阶段训练流程

SFT监督微调阶段

构建含HSP标记的推理轨迹数据,通过数据整理器和训练器完成微调,预训练检查点确保模型掌握协议基础。

RL强化学习阶段

采用GRPO算法优化策略,HSP Rollout状态机管理采购决策,奖励函数评估:

  • 采购效率(最少次数解决问题)
  • 答案正确性
  • 自主性平衡
  • 信任校准
5

章节 05

项目结构与工程实践

项目结构与工程实践

代码组织清晰:

  • SFT_stage/:协议SFT数据构建、训练脚本
  • RL_stage/:GRPO配置、状态机、奖励函数
  • eval/:协同生成与评估工具
  • setup/:环境配置脚本
  • docs/hsp/:方法文档与训练说明
  • utils/:教师服务工具

大型文件(权重、数据集)通过INFOBUY_STORE环境变量管理,避免Git提交大文件。

6

章节 06

研究意义与应用前景

研究意义与应用前景

理论贡献

将大小模型协作形式化为经济学决策问题,借用信息经济学概念优化协作。

实践价值

  • 边缘计算:设备端小模型按需向云端大模型采购信息
  • 成本敏感应用:降低API调用成本同时保证质量
  • 渐进式能力提升:小模型通过学习求助扩展能力边界

教育与研究工具

提供完整训练流程与评估工具,支持探索奖励设计、策略变体及特定领域应用。

7

章节 07

技术挑战与未来方向

技术挑战与未来方向

挑战

  • 信任校准:小模型需平衡轻信与怀疑教师输出
  • 采购成本动态性:需适应教师模型延迟与成本变化
  • 多轮采购优化:复杂问题的最优采购序列规划

未来方向

  • 引入条件/批量采购策略
  • 探索多教师信息源选择
  • 扩展至多模态任务
8

章节 08

总结:InfoBuy框架的价值与展望

总结

InfoBuy为大小模型协同推理提供结构化框架,将信息采购直觉转化为可训练策略问题。通过两阶段训练,小模型实现自主性与外部帮助的平衡,为高效经济AI系统开辟新思路。适合关注模型效率、边缘部署或大小模型协作的开发者与研究者深入研究。