Zing 论坛

正文

UniRRM:跨语言与评估范式的统一推理奖励模型

UniRRM 是首个支持103种语言和三种评估范式(成对、列表、单点)的统一推理奖励模型,通过动态评分标准生成和两阶段训练实现高质量评估

奖励模型多语言ICML 2026LLM评估GRPOLLaMA-Factory推理模型成对评估列表评估单点评估
发布时间 2026/05/23 23:08最近活动 2026/05/23 23:19预计阅读 4 分钟
UniRRM:跨语言与评估范式的统一推理奖励模型
1

章节 01

导读 / 主楼:UniRRM:跨语言与评估范式的统一推理奖励模型

UniRRM 是首个支持103种语言和三种评估范式(成对、列表、单点)的统一推理奖励模型,通过动态评分标准生成和两阶段训练实现高质量评估

3

章节 03

项目背景与动机

在大语言模型(LLM)快速发展的今天,如何准确评估模型生成的回答质量成为了一个核心挑战。现有的奖励模型(Reward Model)通常存在以下局限:

  1. 语言单一:大多数奖励模型主要针对英语设计,难以有效评估其他语言的回答质量
  2. 评估范式割裂:成对比较(pairwise)、列表排序(listwise)、单点评分(pointwise)通常需要不同的模型或架构
  3. 评分标准固定:传统模型使用预定义的评分标准,无法根据具体任务动态调整

UniRRM 正是为了解决这些问题而诞生。作为 ICML 2026 的收录论文,它提出了首个能够同时支持 103 种语言和三种评估范式的统一推理奖励模型。


4

章节 04

1. 自适应评分标准生成(Adaptive Rubric Generation)

UniRRM 引入了一种分阶段推理链,能够动态生成任务通用和指令特定的评估标准。这种机制使得模型能够:

  • 深度分析输入:识别潜在风险、任务类型、核心需求和特定约束
  • 生成动态评分标准:根据具体输入生成 1-5 分的评分标准
  • 细粒度评估:对每个评分维度进行详细评估,包括证据提取、差距分析和最终评分
5

章节 05

2. 统一评估流程(Unified Evaluation Pipeline)

这是 UniRRM 最具突破性的设计。通过一个统一的架构,模型可以处理:

  • 成对评估(Pairwise):比较两个回答的优劣
  • 列表评估(Listwise):对多个回答进行排序
  • 单点评估(Pointwise):对单个回答进行绝对评分

用户只需调整输入中的 <Response> 块数量即可切换评估模式:

  • 2 个块 → 成对评估
  • 4 个块 → 列表评估
  • 1 个块 → 单点评估
6

章节 06

3. 多语言支持(Multilingual Support)

UniRRM 基于 MixReward 数据集训练,该数据集涵盖:

  • 103 种语言
  • 6 个领域

这使得模型能够在不同语言和文化背景下保持稳定的评估质量。


7

章节 07

两阶段训练管道

UniRRM 采用精心设计的两阶段训练策略:

第一阶段:监督微调(SFT)

基于 LLaMA-Factory 框架进行全量微调,建立基础的评估能力。这一阶段让模型学习如何:

  • 分析输入并识别任务类型
  • 生成合适的评分标准
  • 按照结构化格式输出评估结果

第二阶段:强化学习(GRPO)

使用 verl 框架和 GRPO(Group Relative Policy Optimization)算法进一步优化模型的推理能力。这一阶段的目标是:

  • 提升评估的准确性和一致性
  • 增强模型在复杂场景下的判断能力
  • 优化多语言和跨范式的泛化性能
8

章节 08

模型性能表现

UniRRM 在多个基准测试中取得了接近 SOTA 的表现:

成对评估基准

  • RWBench:0.907(8B)/ 0.920(14B)
  • M-RWBench:0.891(8B)/ 0.910(14B)
  • MM-Eval:0.857(8B)/ 0.885(14B)
  • JudgeBench:0.683(8B)/ 0.757(14B)
  • 平均得分:0.834(8B)/ 0.868(14B)

列表评估

  • RWBench2:0.753(8B)/ 0.791(14B)

单点评估(训练时未见)

  • 平均得分:0.734(8B)/ 0.772(14B)

值得注意的是,即使在训练时没有专门优化单点评估,UniRRM 仍然展现出了良好的泛化能力。