Zing 论坛

正文

具身智能安全隐患:大语言模型规划能力与安全意识的失衡

DESPITE基准测试揭示,大语言模型在机器人规划任务中表现出规划能力与安全意识的不匹配,即使规划准确率接近100%的模型仍有28.3%的概率生成危险计划。

具身智能机器人安全大语言模型规划系统安全评估推理模型
发布时间 2026/04/21 00:18最近活动 2026/04/21 11:50预计阅读 2 分钟
具身智能安全隐患:大语言模型规划能力与安全意识的失衡
1

章节 01

【导读】具身智能安全隐患:LLM规划能力与安全意识的失衡

本文通过DESPITE基准测试揭示核心发现:大语言模型(LLM)在机器人规划任务中存在规划能力与安全意识的显著失衡。即使规划准确率接近100%的模型,仍有28.3%的概率生成危险计划。这一现象对具身智能领域的安全部署具有重要警示意义。

2

章节 02

背景:具身智能的安全悖论

LLM驱动的规划系统已渗透到家庭服务机器人、工业机器人、自动驾驶等物理场景。传统观念认为规划能力强则自然安全,但研究显示:规划能力与安全意识是相对独立的维度,模型可在规划出色的同时忽视潜在危险。

3

章节 03

方法:DESPITE基准测试框架

研究团队开发DESPITE基准,包含12279个任务,覆盖物理危险(碰撞、跌落、触电等)和规范危险(违反伦理/法律)两大类别。其完全确定性验证机制确保测试结果客观可信,避免主观评估偏差。

4

章节 04

核心证据:能力与安全脱钩及推理模型优势

  1. 规划能力规模效应:开源模型参数从30亿到6710亿,规划准确率从0.4%升至99.3%,但安全意识仅从38%微增至57%;2. 危险计划生成率:最优模型仍有28.3%概率生成危险计划;3. 乘法关系假说:安全完成任务概率=规划准确率×安全意识;4. 专有推理模型安全意识达71%-81%,开源推理模型无此优势。
5

章节 05

结论与启示:安全部署的核心挑战

  1. 必须构建多层安全护栏(显式安全检查、人类监督、物理限制等),不能仅依赖模型内在能力;2. 训练范式需将安全意识纳入核心目标,而非事后考虑;3. 评估标准应扩展至安全性、鲁棒性等维度,而非仅关注任务完成率。
6

章节 06

未来研究方向

  1. 探索安全意识的机制,研究能否迁移至其他模型;2. 开发安全增强技术(后训练对齐、安全提示工程等);3. 扩展评估框架至执行监控、异常处理、人机协作等场景。
7

章节 07

结语:安全是具身智能发展的前提

LLM在具身智能中的应用前景广阔,但规划与安全失衡是系统性问题,需学术界、工业界、监管机构共同努力,确保安全前提下让具身智能造福人类社会。