Zing 论坛

正文

LSE-MTP:多令牌预测与潜在语义增强构建一致世界模型

研究提出 LSE-MTP 方法,通过将预测锚定到真实隐藏状态轨迹,解决标准多令牌预测中的结构性幻觉问题,有效弥合离散令牌与连续状态表示之间的差距。

世界模型多令牌预测潜在语义增强结构性幻觉表示学习梯度归纳偏置LLM
发布时间 2026/04/08 01:54最近活动 2026/04/08 11:20预计阅读 2 分钟
LSE-MTP:多令牌预测与潜在语义增强构建一致世界模型
1

章节 01

【导读】LSE-MTP:解决MTP结构性幻觉,构建一致世界模型

大型语言模型(LLMs)的内部世界模型一致性是AI领域核心争论。传统多令牌预测(MTP)虽能学习结构化表示,但存在结构性幻觉问题(离散令牌监督导致潜在空间捷径,违反环境约束)。本研究提出潜在语义增强多令牌预测(LSE-MTP)方法,通过锚定真实隐藏状态轨迹,弥合离散令牌与连续状态表示的差距,有效解决结构性幻觉,提升世界模型的一致性与鲁棒性。

2

章节 02

背景:LLM世界模型之争与预测范式演进

世界模型之争

学术界对LLMs是否具备真正世界模型存在分歧:一方认为是统计模式匹配器,仅学词语相关性;另一方认为形成内部模型可推理世界状态。争论核心在于内部表示是否捕捉世界结构,还是仅记表面规律。

预测范式从NTP到MTP

传统下一令牌预测(NTP)聚焦单步准确性,难捕捉长程结构;多令牌预测(MTP)同时预测多个未来令牌,鼓励学习结构化表示,通过梯度耦合诱导表示收缩性,促进内部信念收敛。

3

章节 03

MTP的优势与结构性幻觉隐忧

MTP的梯度归纳偏置带来表示收缩性,使相似输入映射到相似潜在表示,利于结构化学习。但标准MTP存在结构性幻觉:离散令牌监督鼓励潜在空间捷径,违反真实世界约束(如物理规律),导致分布外数据下脆弱性。

4

章节 04

LSE-MTP方法:锚定真实状态的解决方案

LSE-MTP核心是将预测锚定到真实隐藏状态轨迹,采用双重监督:既预测未来令牌,也预测对应真实世界状态(如物理位置、速度)。此机制防止违反约束的潜在表示,弥合离散令牌与连续状态差距,提供额外训练信号增强鲁棒性。

5

章节 05

实验验证:合成与真实任务的有效性

研究在两类任务验证LSE-MTP:

  1. 合成图遍历:减少结构性幻觉,潜在表示更反映图真实拓扑;
  2. 曼哈顿出租车轨迹预测:提升预测准确性,对噪声扰动鲁棒性显著优于标准MTP。
6

章节 06

核心收益:表示对齐与鲁棒性提升

LSE-MTP实现表示对齐,潜在表示更符合真实世界语义结构,增强可解释性与泛化能力;同时提升鲁棒性,面对分布外数据或扰动时性能更稳定,解决标准MTP的脆弱性问题。

7

章节 07

未来启示与结语

未来研究方向

  • 扩展到视觉、音频等复杂模态;
  • 探索高效监督信号获取(仿真环境、人类反馈);
  • 结合强化学习、模仿学习;
  • 量化评估世界模型质量。

结语

LSE-MTP是构建可信世界模型的重要一步,强调监督信号需兼顾任务性能与真实结构,为训练真正理解世界的AI提供新思路。