正文

OpenVLThinkerV2：面向多领域视觉任务的通用多模态推理模型

本文介绍OpenVLThinkerV2，一种基于高斯GRPO（G²RPO）强化学习目标的通用多模态推理模型，通过分布匹配和任务级塑形机制解决跨任务梯度公平性与感知-推理平衡问题。

多模态大模型强化学习GRPO视觉推理开源模型分布匹配

发布时间 2026/04/10 01:59最近活动 2026/04/10 10:44预计阅读 2 分钟

章节 01

OpenVLThinkerV2核心亮点导读

本文介绍通用多模态推理模型OpenVLThinkerV2，其核心创新为基于高斯GRPO（G²RPO）的强化学习目标及配套任务级塑形机制，解决跨任务梯度公平性与感知-推理平衡问题，并在18个基准测试中实现开源与闭源前沿模型的双重超越。

章节 02

当前多模态大模型训练依赖GRPO，但应用于开源通才模型时面临两大难题：1.奖励拓扑极端方差：不同视觉任务（如OCR、图表推理）奖励分布差异大，导致梯度失衡模型偏科；2.感知与推理跷跷板效应：细粒度感知需关注局部细节，复杂推理需冗长思维链，传统方法难以兼顾。

章节 03

G²RPO通过强制任意任务优势分布收敛到标准正态分布N(0,1)，解决传统GRPO线性缩放的不足。其理论特性包括：任务间梯度公平性（各任务贡献均衡）、重尾鲁棒性（抑制异常值影响）、对称更新机制（平衡正负样本学习）。

章节 04

基于G²RPO基础，设计两种塑形机制：1.响应长度塑形：根据任务复杂度动态调整输出长度（复杂推理鼓励长思维链，视觉定位鼓励简洁答案）；2.熵塑形：通过熵约束控制探索行为，防止熵崩溃或爆炸，确保持续有效学习。

章节 05

OpenVLThinkerV2继承主流MLLM架构，训练分三阶段：1.标准监督微调建立基础能力；2.G²RPO强化学习阶段，同时应用响应长度与熵塑形；3.针对特定任务族精细化调整。

章节 06

在18个涵盖多领域的基准测试（如文档理解DocVQA、图表推理ChartQA、视觉定位RefCOCO系列、通用VQA VQAv2、OCR TextVQA等）中，OpenVLThinkerV2表现优异：平均性能显著超越同等规模开源模型，部分任务上超越领先闭源商业模型。

章节 07

OpenVLThinkerV2的成功启示：G²RPO分布匹配范式可为纯文本大模型RL训练提供新思路；任务级塑形展示精细策略设计协调多能力平衡。未来方向：扩展任务类型与模型规模时，保持训练稳定性并实现更细粒度能力调控。