章节 01
导读:Perception-Judge框架解决多模态LLM评判偏见问题
KAIST研究团队提出Perception-Judge框架,通过构建感知扰动数据集PPJD和采用GRPO强化学习+批次排序奖励训练,有效缓解多模态大模型作为评判器时的感知判断偏见问题。该框架提升了评判的感知保真度、排序连贯性与人类对齐度,并开源了数据集、模型及代码资源。
正文
KAIST研究团队提出Perception-Judge框架,通过感知扰动数据集PPJD和GRPO强化学习训练,有效缓解多模态大模型作为评判器时的感知判断偏见问题。
章节 01
KAIST研究团队提出Perception-Judge框架,通过构建感知扰动数据集PPJD和采用GRPO强化学习+批次排序奖励训练,有效缓解多模态大模型作为评判器时的感知判断偏见问题。该框架提升了评判的感知保真度、排序连贯性与人类对齐度,并开源了数据集、模型及代码资源。
章节 02
近年来多模态LLM在视觉理解等任务表现出色,但作为自动化评判器时存在感知判断偏见:视觉证据与文本线索冲突时,倾向奖励看似合理的文本叙述而非基于视觉感知的正确答案。这种偏见导致评估过度依赖文本流畅性,忽视图像内容真正理解,如图像描述与内容不符但流畅时仍获高分。
章节 03
基于MMPR v1.2标注数据构建,生成视觉微小差异但语义关键不同的变体图像,保持文本响应不变,用于隔离感知错误并提供监督信号,含约3000条训练样本,已发布于Hugging Face。
采用Group Relative Policy Optimization(GRPO)算法微调,结合批次排序奖励目标,支持全参数微调和LoRA模式,基于verl项目构建,发布多个规模模型检查点(如Qwen3-4B、Flex-VL-32B LoRA版)。
章节 04
在MLLM-Judge基准测试中,该框架取得显著改进:
章节 05
项目完全开源,提供:
章节 06
理论意义:首次系统性定义并量化MLLM-as-a-Judge的感知判断偏见,提供问题框架与评估基准。 实践意义:提供完整解决方案,降低研究门槛。 未来展望:在多模态内容审核、生成式AI评估、人机协作系统等领域有深远影响。
章节 07
Perception-Judge代表多模态LLM评判器领域重要进展,通过PPJD数据集与GRPO+批次排序框架缓解感知偏见,训练出更感知grounded、可解释且鲁棒的评判器。兼具学术价值与实际应用路径,开源资源将促进社区进步。