正文

SIMMER: 揭示LLM规划中的隐性失败——机器人任务规划的盲点

SIMMER基准测试通过厨房场景的世界模型，系统评估LLM在可执行规划中的隐性失败问题，发现即使前沿模型也有高达56%的计划包含隐性失败，并提出反事实前瞻模拟可将失败率降低72%。

LLM规划隐性失败SIMMER基准机器人任务规划世界模型反事实推理AI安全自主代理

发布时间 2026/06/12 23:53最近活动 2026/06/15 10:20预计阅读 2 分钟

章节 01

导读：SIMMER揭示LLM规划隐性失败及改进方案

SIMMER基准测试聚焦LLM在机器人任务规划中的隐性失败问题，通过厨房场景世界模型系统评估发现：前沿LLM计划中高达56%存在隐性失败，而反事实前瞻模拟可将失败率降低72%。该研究填补了LLM规划评估的空白，为AI代理安全部署提供重要参考。

章节 02

隐性失败是LLM规划中隐蔽且危险的失败类型，与立即失败（执行时立即报错）不同，它不会中断执行但会破坏目标达成，甚至导致不可逆损害。例如：机器人做早餐时，先煮鸡蛋再放热水壶导致蛋壳破裂，任务表面完成但结果不可食用。

章节 03

SIMMER构建了语义真实的厨房场景符号世界模型，包含77个动作、262个独特对象及约46800种真实交互（源于烹饪脚本）。配备状态机执行器，可检测三类失败：立即前提违反、隐性危险、不可逆失败，精确分析失败模式。

章节 04

在六种LLM上的实验显示：最高无错误计划率仅17%，超半数（56%）计划含隐性失败，且大多数隐性失败导致不可逆后果。这表明当前LLM在家庭环境规划中远未达到可靠部署标准。

章节 05

研究提出反事实前瞻模拟方案，让模型执行前模拟动作后果以识别风险。实验结果显著：隐性失败减少72%（从56%降至16%），不可逆案例减少75%，为鲁棒LLM规划器构建指明方向。

章节 06

SIMMER研究对AI代理开发的启示：1. 成功率非唯一指标，需关注隐性失败检测；2. LLM需理解物理世界因果关系，世界模型与反事实推理关键；3. 安全部署需模拟测试、约束检查、人工监督等多层防护。

章节 07

SIMMER填补了LLM规划评估的关键空白，系统性揭示隐性失败问题，展示显式状态推理改进的可行性。为家庭AI代理开发者提供评估工具与参考框架，未来LLM的可靠性与安全性将是落地关键。