章节 01
OpenVLThinkerV2核心亮点导读
本文介绍通用多模态推理模型OpenVLThinkerV2,其核心创新为基于高斯GRPO(G²RPO)的强化学习目标及配套任务级塑形机制,解决跨任务梯度公平性与感知-推理平衡问题,并在18个基准测试中实现开源与闭源前沿模型的双重超越。
正文
本文介绍OpenVLThinkerV2,一种基于高斯GRPO(G²RPO)强化学习目标的通用多模态推理模型,通过分布匹配和任务级塑形机制解决跨任务梯度公平性与感知-推理平衡问题。
章节 01
本文介绍通用多模态推理模型OpenVLThinkerV2,其核心创新为基于高斯GRPO(G²RPO)的强化学习目标及配套任务级塑形机制,解决跨任务梯度公平性与感知-推理平衡问题,并在18个基准测试中实现开源与闭源前沿模型的双重超越。
章节 02
当前多模态大模型训练依赖GRPO,但应用于开源通才模型时面临两大难题:1.奖励拓扑极端方差:不同视觉任务(如OCR、图表推理)奖励分布差异大,导致梯度失衡模型偏科;2.感知与推理跷跷板效应:细粒度感知需关注局部细节,复杂推理需冗长思维链,传统方法难以兼顾。
章节 03
G²RPO通过强制任意任务优势分布收敛到标准正态分布N(0,1),解决传统GRPO线性缩放的不足。其理论特性包括:任务间梯度公平性(各任务贡献均衡)、重尾鲁棒性(抑制异常值影响)、对称更新机制(平衡正负样本学习)。
章节 04
基于G²RPO基础,设计两种塑形机制:1.响应长度塑形:根据任务复杂度动态调整输出长度(复杂推理鼓励长思维链,视觉定位鼓励简洁答案);2.熵塑形:通过熵约束控制探索行为,防止熵崩溃或爆炸,确保持续有效学习。
章节 05
OpenVLThinkerV2继承主流MLLM架构,训练分三阶段:1.标准监督微调建立基础能力;2.G²RPO强化学习阶段,同时应用响应长度与熵塑形;3.针对特定任务族精细化调整。
章节 06
在18个涵盖多领域的基准测试(如文档理解DocVQA、图表推理ChartQA、视觉定位RefCOCO系列、通用VQA VQAv2、OCR TextVQA等)中,OpenVLThinkerV2表现优异:平均性能显著超越同等规模开源模型,部分任务上超越领先闭源商业模型。
章节 07
OpenVLThinkerV2的成功启示:G²RPO分布匹配范式可为纯文本大模型RL训练提供新思路;任务级塑形展示精细策略设计协调多能力平衡。未来方向:扩展任务类型与模型规模时,保持训练稳定性并实现更细粒度能力调控。