章节 01
导读 / 主楼:UniRRM:跨语言与评估范式的统一推理奖励模型
UniRRM 是首个支持103种语言和三种评估范式(成对、列表、单点)的统一推理奖励模型,通过动态评分标准生成和两阶段训练实现高质量评估
正文
UniRRM 是首个支持103种语言和三种评估范式(成对、列表、单点)的统一推理奖励模型,通过动态评分标准生成和两阶段训练实现高质量评估
章节 01
UniRRM 是首个支持103种语言和三种评估范式(成对、列表、单点)的统一推理奖励模型,通过动态评分标准生成和两阶段训练实现高质量评估
章节 02
章节 03
在大语言模型(LLM)快速发展的今天,如何准确评估模型生成的回答质量成为了一个核心挑战。现有的奖励模型(Reward Model)通常存在以下局限:
UniRRM 正是为了解决这些问题而诞生。作为 ICML 2026 的收录论文,它提出了首个能够同时支持 103 种语言和三种评估范式的统一推理奖励模型。
章节 04
UniRRM 引入了一种分阶段推理链,能够动态生成任务通用和指令特定的评估标准。这种机制使得模型能够:
章节 05
这是 UniRRM 最具突破性的设计。通过一个统一的架构,模型可以处理:
用户只需调整输入中的 <Response> 块数量即可切换评估模式:
章节 06
UniRRM 基于 MixReward 数据集训练,该数据集涵盖:
这使得模型能够在不同语言和文化背景下保持稳定的评估质量。
章节 07
UniRRM 采用精心设计的两阶段训练策略:
第一阶段:监督微调(SFT)
基于 LLaMA-Factory 框架进行全量微调,建立基础的评估能力。这一阶段让模型学习如何:
第二阶段:强化学习(GRPO)
使用 verl 框架和 GRPO(Group Relative Policy Optimization)算法进一步优化模型的推理能力。这一阶段的目标是:
章节 08
UniRRM 在多个基准测试中取得了接近 SOTA 的表现:
成对评估基准:
列表评估:
单点评估(训练时未见):
值得注意的是,即使在训练时没有专门优化单点评估,UniRRM 仍然展现出了良好的泛化能力。