Zing 论坛

正文

从人类标注差异中学习:通过跨标注者偏好优化捕捉个性化解释行为

本文提出跨标注者偏好优化(CAPO)方法,使大语言模型能够学习并复现特定标注者的标签-解释行为模式。研究表明人类标注差异(HLV)可作为稳定信号用于训练模型理解标注者的个性化推理偏好。

人类标注差异跨标注者偏好优化大语言模型个性化解释性标注数据标注偏好优化自然语言推理
发布时间 2026/05/28 01:55最近活动 2026/05/28 12:49预计阅读 2 分钟
从人类标注差异中学习:通过跨标注者偏好优化捕捉个性化解释行为
1

章节 01

【导读】CAPO方法:利用人类标注差异学习个性化解释行为

本文提出跨标注者偏好优化(CAPO)方法,旨在让大语言模型(LLM)学习并复现特定标注者的标签-解释行为模式。研究核心发现是人类标注差异(HLV)可作为稳定信号,帮助模型理解标注者的个性化推理偏好。

2

章节 02

研究背景:重新认识人类标注差异(HLV)

传统观点将自然语言处理标注中的HLV视为噪声,但近年研究认为其反映标注者合理的视角/偏好差异。自由文本解释为理解HLV提供窗口,揭示标注者选择标签的推理过程与偏好。核心问题:LLM能否学习并复现标注者特定的标签-解释行为?

3

章节 03

研究设计:任务选择与数据收集

研究选择两个句子对任务:自然语言推理(NLI,判断逻辑关系)、释义判断(判断句子含义是否相同)。每个任务由4位不同标注者标注,确保足够数据分析个体差异模式。

4

章节 04

核心方法:CAPO与现有方法对比

对比三种方法:

  1. 提示方法:直接描述标注者风格,效果受限且不稳定;
  2. 监督微调(SFT):用特定标注者数据微调,效果优于提示;
  3. CAPO(跨标注者偏好优化):通过对比目标标注者与其他标注者响应,学习独特模式。 CAPO技术细节:构造目标标注者响应为正例、其他为负例;应用偏好优化技术;兼顾标签一致性与解释质量。
5

章节 05

实验证据:CAPO方法性能表现

实验结果:

  • 提示方法:基线表现有限,个体模式捕捉不稳定;
  • SFT方法:显著优于提示,有效学习标注者特定行为;
  • CAPO方法:在SFT基础上进一步提升,多个维度最佳,且泛化到新输入(非简单记忆,而是可迁移风格表征)。
6

章节 06

研究结论与应用前景

结论:证明HLV可作为标注者特定标签-解释行为的稳定信号学习。应用前景包括:

  • 个性化模型服务:匹配特定用户/场景偏好;
  • 可扩展解释性标注:基于历史学习解释风格;
  • 标注质量提升:减少不必要分歧,保留视角多样性;
  • 人机协作优化:设计更好的辅助标注系统。
7

章节 07

局限与未来研究方向

局限:仅覆盖两个任务,标注者数据量有限,模型表征可解释性待提升。未来方向:扩展到更多任务/领域,结合主动学习高效收集数据,开发更好评估指标衡量标注者建模质量。