章节 01
【导读】动态对齐:重新思考人机价值对齐的时间维度
本文核心论点:当前人机对齐评估方法假设用户偏好静态,依赖即时反馈(如RLHF/DPO),但现实中用户偏好会随时间和情境变化。研究提出纵向、情境化的对齐测量框架,并通过BITE浏览器系统验证,发现用户即时偏好与后续反思存在显著差异,揭示传统方法的局限性。
正文
本文提出从单时刻偏好采集转向纵向、情境化的对齐测量方法。通过BITE浏览器系统,研究发现用户即时偏好与后续反思存在显著差异,揭示了传统对齐评估方法的局限性。
章节 01
本文核心论点:当前人机对齐评估方法假设用户偏好静态,依赖即时反馈(如RLHF/DPO),但现实中用户偏好会随时间和情境变化。研究提出纵向、情境化的对齐测量框架,并通过BITE浏览器系统验证,发现用户即时偏好与后续反思存在显著差异,揭示传统方法的局限性。
章节 02
当前LLM对齐研究(如RLHF、DPO)假设用户偏好静态,依赖交互结束时的即时反馈。但现实决策具时间延展性:AI辅助决策的后果会让用户后续重新评估。
章节 03
章节 04
8名参与者的两周研究显示:
基于即时反馈的数据集可能存在系统性偏差,导致模型表现高估、对齐程度误判。
章节 05
章节 06
人机对齐需拥抱时间维度,静态偏好信号无法反映真实需求。纵向视角是构建真正对齐AI系统的关键,尤其在AI介入重要决策时更迫切。