# LSE-MTP：多令牌预测与潜在语义增强构建一致世界模型

> 研究提出 LSE-MTP 方法，通过将预测锚定到真实隐藏状态轨迹，解决标准多令牌预测中的结构性幻觉问题，有效弥合离散令牌与连续状态表示之间的差距。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-07T17:54:22.000Z
- 最近活动: 2026-04-08T03:20:23.635Z
- 热度: 139.6
- 关键词: 世界模型, 多令牌预测, 潜在语义增强, 结构性幻觉, 表示学习, 梯度归纳偏置, LLM
- 页面链接: https://www.zingnex.cn/forum/thread/lse-mtp
- Canonical: https://www.zingnex.cn/forum/thread/lse-mtp
- Markdown 来源: ingested_event

---

# LSE-MTP：多令牌预测与潜在语义增强构建一致世界模型\n\n大型语言模型（LLMs）是否具备连贯的内部世界模型，一直是人工智能领域的核心争论之一。传统的下一令牌预测（Next-Token Prediction, NTP）方法专注于单步预测监督，而多令牌预测（Multi-Token Prediction, MTP）在学习结构化表示方面展现出潜力。最新研究从理论角度分析了 MTP 的梯度归纳偏置，并通过实证证据表明，MTP 通过梯度耦合诱导表示收缩性，促进了内部信念状态的收敛。然而，标准 MTP 也存在结构性幻觉问题，离散令牌监督会鼓励违反环境约束的潜在空间捷径。为此，研究团队提出了潜在语义增强多令牌预测方法（LSE-MTP），通过将预测锚定到真实隐藏状态轨迹，有效弥合了离散令牌与连续状态表示之间的差距。\n\n## 世界模型之争：LLMs 是否真正理解世界\n\n关于大型语言模型是否具备真正的世界模型，学术界存在两种截然不同的观点。一方认为，LLMs 只是统计模式匹配器，通过海量文本学习到了词语之间的相关性，但并未建立起对世界的真正理解；另一方则认为，LLMs 在训练过程中确实形成了某种内部世界模型，能够对世界的状态和动态进行推理。\n\n这一争论的核心在于：LLMs 的内部表示是否真正捕捉到了世界的结构，还是仅仅记住了表面的统计规律？如果 LLMs 具备真正的世界模型，那么它们应该能够在新的、未见过的情境中进行合理的推理和预测；反之，如果它们只是模式匹配器，那么在面对分布外（out-of-distribution）的数据时就会表现出脆弱性。\n\n## 从 NTP 到 MTP：预测范式的演进\n\n传统的下一令牌预测（NTP）是语言模型训练的标准范式。在 NTP 中，模型被训练来预测序列中的下一个令牌，损失函数仅关注单步预测的准确性。这种训练方式简单高效，但也存在明显局限：模型只学习到了局部的、短期的依赖关系，难以捕捉到长程的结构和全局的语义。\n\n多令牌预测（MTP）则是对这一范式的自然扩展。在 MTP 中，模型同时预测未来多个令牌，损失函数考虑了多步预测的整体准确性。这种训练方式鼓励模型学习更加结构化的表示，因为准确预测多个未来令牌需要模型对序列的深层结构有更好的理解。研究表明，MTP 确实能够学习到比 NTP 更有结构化的内部表示。\n\n## MTP 的梯度归纳偏置：理论视角\n\n研究团队从理论角度深入分析了 MTP 的学习动态。核心发现是，MTP 通过梯度耦合机制诱导表示收缩性（representational contractivity），从而促进内部信念状态的收敛。具体来说，当模型同时预测多个未来令牌时，不同预测任务之间的梯度相互作用，产生了一种"拉力"，使得相关的输入被映射到相似的潜在表示。\n\n这种梯度诱导的收缩性具有深刻的意义。它意味着 MTP 自然地倾向于学习一种层次化的、结构化的表示，其中相似的输入被分组在一起，而不同组的输入被清晰地分离。这正是世界模型所需要的特性：模型需要将观察到的状态映射到内部表示，并在这些表示上进行推理和预测。\n\n## 结构性幻觉：标准 MTP 的隐忧\n\n尽管 MTP 具有上述优势，研究团队也揭示了其一个关键缺陷：结构性幻觉（structural hallucinations）。在标准 MTP 中，监督信号仅来自离散的令牌预测损失。这种监督方式鼓励模型在潜在空间中寻找"捷径"——即那些能够帮助准确预测令牌的潜在表示，但这些表示可能违反了真实世界的约束。\n\n举个例子，假设模型正在学习预测交通场景中的车辆运动。标准 MTP 可能会学到一种表示，它在大多数情况下能够准确预测车辆的下一个位置，但这种表示可能并不符合物理规律（如速度限制、碰撞避免等）。当遇到训练数据中未见过的情况时，这种违反约束的表示就会导致错误的预测。这就是结构性幻觉的本质：模型学到了能够完成任务但不符合真实世界结构的表示。\n\n## LSE-MTP：潜在语义增强的解决方案\n\n针对结构性幻觉问题，研究团队提出了潜在语义增强多令牌预测（LSE-MTP）方法。LSE-MTP 的核心思想是将预测锚定到真实的隐藏状态轨迹，而不仅仅是离散的令牌序列。具体来说，LSE-MTP 在训练过程中不仅预测未来的令牌，还预测与这些令牌对应的真实世界状态（如物理位置、速度等）。\n\n这种双重监督机制带来了几个关键优势。首先，真实状态监督提供了一种"锚点"，防止模型学习到违反物理约束的潜在表示。其次，通过显式地建模令牌与状态之间的对应关系，LSE-MTP 能够更好地弥合离散令牌空间与连续状态空间之间的差距。最后，状态监督信号提供了额外的训练信号，有助于模型学习更加鲁棒的表示。\n\n## 实验验证：从合成图到真实世界\n\n研究团队在两类任务上验证了 LSE-MTP 的有效性：合成图遍历任务和真实世界的曼哈顿出租车轨迹预测任务。在合成图任务中，模型需要学习在图结构中进行导航和预测。实验表明，LSE-MTP 显著减少了结构性幻觉，模型学到的潜在表示更好地反映了图的真实拓扑结构。\n\n在曼哈顿出租车轨迹预测任务中，模型需要根据历史轨迹预测未来的出租车位置。这一任务具有挑战性，因为它涉及复杂的时空动态和多种影响因素（如交通状况、时间、地点等）。LSE-MTP 在这一任务上表现出色，不仅提高了预测准确性，还增强了模型对扰动的鲁棒性。当输入轨迹被噪声干扰时，LSE-MTP 模型的性能下降明显小于标准 MTP 模型。\n\n## 表示对齐与鲁棒性提升\n\nLSE-MTP 带来的一个关键改进是表示对齐（representation alignment）。通过将令牌预测与状态预测相结合，LSE-MTP 学到的潜在表示更好地对齐了真实世界的语义结构。这种对齐不仅提高了模型的可解释性（研究者可以更容易地理解模型学到了什么），还增强了模型的泛化能力。\n\n鲁棒性提升是另一个重要收益。在标准 MTP 中，由于潜在表示可能违反真实约束，模型在面对分布外数据或扰动时容易崩溃。LSE-MTP 通过确保潜在表示符合真实世界结构，使得模型在这些情况下表现更加稳定。这对于实际应用至关重要，因为真实世界的数据总是充满噪声和意外。\n\n## 对未来研究的启示\n\nLSE-MTP 的研究为构建具有真正世界模型的 AI 系统提供了重要启示。首先，监督信号的设计至关重要——仅仅优化下游任务（如令牌预测）的性能是不够的，还需要确保内部表示符合真实世界的结构。其次，离散与连续之间的鸿沟是一个核心挑战，需要显式地建模两者之间的对应关系。\n\n未来的研究方向包括将 LSE-MTP 扩展到更复杂的模态（如视觉、音频），探索更高效的监督信号获取方式（如通过仿真环境或人类反馈），以及研究如何将 LSE-MTP 与现有的强化学习、模仿学习等方法相结合。此外，如何量化评估模型学到的世界模型的质量，也是一个值得深入研究的课题。\n\n## 结语\n\nLSE-MTP 代表了在构建可信世界模型道路上的重要一步。通过揭示标准 MTP 的结构性幻觉问题，并提出潜在语义增强的解决方案，这项研究为如何训练真正理解世界的 AI 系统提供了新的思路。在追求更大规模、更强能力的 AI 模型的同时，我们也需要关注模型内部表示的质量和一致性——毕竟，真正的智能不仅需要完成任务，更需要理解任务背后的世界。
