正文

从人类标注差异中学习：通过跨标注者偏好优化捕捉个性化解释行为

本文提出跨标注者偏好优化（CAPO）方法，使大语言模型能够学习并复现特定标注者的标签-解释行为模式。研究表明人类标注差异（HLV）可作为稳定信号用于训练模型理解标注者的个性化推理偏好。

人类标注差异跨标注者偏好优化大语言模型个性化解释性标注数据标注偏好优化自然语言推理

发布时间 2026/05/28 01:55最近活动 2026/05/28 12:49预计阅读 2 分钟

章节 01

【导读】CAPO方法：利用人类标注差异学习个性化解释行为

本文提出跨标注者偏好优化（CAPO）方法，旨在让大语言模型（LLM）学习并复现特定标注者的标签-解释行为模式。研究核心发现是人类标注差异（HLV）可作为稳定信号，帮助模型理解标注者的个性化推理偏好。

章节 02

传统观点将自然语言处理标注中的HLV视为噪声，但近年研究认为其反映标注者合理的视角/偏好差异。自由文本解释为理解HLV提供窗口，揭示标注者选择标签的推理过程与偏好。核心问题：LLM能否学习并复现标注者特定的标签-解释行为？

章节 03

研究选择两个句子对任务：自然语言推理（NLI，判断逻辑关系）、释义判断（判断句子含义是否相同）。每个任务由4位不同标注者标注，确保足够数据分析个体差异模式。

章节 04

对比三种方法：

提示方法：直接描述标注者风格，效果受限且不稳定；
监督微调（SFT）：用特定标注者数据微调，效果优于提示；
CAPO（跨标注者偏好优化）：通过对比目标标注者与其他标注者响应，学习独特模式。 CAPO技术细节：构造目标标注者响应为正例、其他为负例；应用偏好优化技术；兼顾标签一致性与解释质量。

章节 05

实验结果：

章节 06

结论：证明HLV可作为标注者特定标签-解释行为的稳定信号学习。应用前景包括：

章节 07

局限：仅覆盖两个任务，标注者数据量有限，模型表征可解释性待提升。未来方向：扩展到更多任务/领域，结合主动学习高效收集数据，开发更好评估指标衡量标注者建模质量。