Zing 论坛

正文

OpenVLThinkerV2:面向多领域视觉任务的通用多模态推理模型

本文介绍OpenVLThinkerV2,一种基于高斯GRPO(G²RPO)强化学习目标的通用多模态推理模型,通过分布匹配和任务级塑形机制解决跨任务梯度公平性与感知-推理平衡问题。

多模态大模型强化学习GRPO视觉推理开源模型分布匹配
发布时间 2026/04/10 01:59最近活动 2026/04/10 10:44预计阅读 2 分钟
OpenVLThinkerV2:面向多领域视觉任务的通用多模态推理模型
1

章节 01

OpenVLThinkerV2核心亮点导读

本文介绍通用多模态推理模型OpenVLThinkerV2,其核心创新为基于高斯GRPO(G²RPO)的强化学习目标及配套任务级塑形机制,解决跨任务梯度公平性与感知-推理平衡问题,并在18个基准测试中实现开源与闭源前沿模型的双重超越。

2

章节 02

多模态强化学习的双重困境

当前多模态大模型训练依赖GRPO,但应用于开源通才模型时面临两大难题:1.奖励拓扑极端方差:不同视觉任务(如OCR、图表推理)奖励分布差异大,导致梯度失衡模型偏科;2.感知与推理跷跷板效应:细粒度感知需关注局部细节,复杂推理需冗长思维链,传统方法难以兼顾。

3

章节 03

高斯GRPO(G²RPO):分布匹配的非线性优化

G²RPO通过强制任意任务优势分布收敛到标准正态分布N(0,1),解决传统GRPO线性缩放的不足。其理论特性包括:任务间梯度公平性(各任务贡献均衡)、重尾鲁棒性(抑制异常值影响)、对称更新机制(平衡正负样本学习)。

4

章节 04

任务级塑形机制:动态平衡感知与推理

基于G²RPO基础,设计两种塑形机制:1.响应长度塑形:根据任务复杂度动态调整输出长度(复杂推理鼓励长思维链,视觉定位鼓励简洁答案);2.熵塑形:通过熵约束控制探索行为,防止熵崩溃或爆炸,确保持续有效学习。

5

章节 05

OpenVLThinkerV2架构与训练流程

OpenVLThinkerV2继承主流MLLM架构,训练分三阶段:1.标准监督微调建立基础能力;2.G²RPO强化学习阶段,同时应用响应长度与熵塑形;3.针对特定任务族精细化调整。

6

章节 06

实验评估:18项基准测试全面领先

在18个涵盖多领域的基准测试(如文档理解DocVQA、图表推理ChartQA、视觉定位RefCOCO系列、通用VQA VQAv2、OCR TextVQA等)中,OpenVLThinkerV2表现优异:平均性能显著超越同等规模开源模型,部分任务上超越领先闭源商业模型。

7

章节 07

技术启示与未来展望

OpenVLThinkerV2的成功启示:G²RPO分布匹配范式可为纯文本大模型RL训练提供新思路;任务级塑形展示精细策略设计协调多能力平衡。未来方向:扩展任务类型与模型规模时,保持训练稳定性并实现更细粒度能力调控。