章节 01
导读:RLHF标注的三种范式与实践建议
基于人类反馈的强化学习(RLHF)是当前大语言模型对齐的主流方法,但标注者判断的规范性角色问题长期被忽视。本文区分了RLHF标注的三种范式——延伸、证据与权威,分析现有研究中模型混淆的问题及失败模式,提出应按标注维度定制策略的核心建议,以实现更合理、公正、透明的AI对齐流程。
正文
本文区分了RLHF中人类标注的三种规范性角色——延伸、证据与权威,分析了不同范式对标注流程设计的影响,并提出应按维度定制标注策略的建议。
章节 01
基于人类反馈的强化学习(RLHF)是当前大语言模型对齐的主流方法,但标注者判断的规范性角色问题长期被忽视。本文区分了RLHF标注的三种范式——延伸、证据与权威,分析现有研究中模型混淆的问题及失败模式,提出应按标注维度定制策略的核心建议,以实现更合理、公正、透明的AI对齐流程。
章节 02
RLHF已成为顶尖模型(如ChatGPT、Claude)的对齐核心,但根本性问题被忽视:标注者判断在规范性上的角色(执行设计者意志、提供独立证据还是代表群体决策?)直接影响流程设计。
章节 03
核心:标注者是设计者延伸,反映其价值观。运作逻辑:设计者明确标准→标注者培训学习→质量以一致性衡量→分歧视为错误。场景:技术文档校对、代码语法评估等。优势:标准明确易质控;风险:放大设计者偏见、忽视多元价值观。
核心:标注者提供独立事实证据。运作逻辑:存在主体间可验证事实→标注者收集→聚合增强证据→分歧反映多元性。场景:内容安全规范、文化敏感性评估等。优势:捕捉社会多样性;风险:事实与价值界限模糊、样本偏差。
核心:标注者代表群体拥有决策权威。运作逻辑:受影响人群参与决策→标注者民主代表→集体判断有约束力→设计者执行。场景:医疗/司法AI、公共服务本地化。优势:增强民主合法性;风险:代表性不足、权责不清、效率低。
章节 04
设计者声称反映用户偏好(证据),实际严格控制标准(延伸)→系统绑定设计者价值观却不透明,忽视多元需求。
声称代表公众利益(权威),但标注者无代表性、流程无问责→特定群体价值观被强加,后果无人负责。
标注者的社会洞察(证据)被视为执行偏差(延伸)→有价值信息被过滤,系统与现实脱节。
章节 05
当前RLHF多由企业内部完成,权威模型为民主化对齐提供框架,但需解决代表性和问责挑战。
证据与权威模型指向:不存在单一“正确”价值观,AI需适应合理多元性。
用户有权知道:谁定标准、标准如何制定更新、如何申诉纠正。
章节 06