# 具身智能安全隐患：大语言模型规划能力与安全意识的失衡

> DESPITE基准测试揭示，大语言模型在机器人规划任务中表现出规划能力与安全意识的不匹配，即使规划准确率接近100%的模型仍有28.3%的概率生成危险计划。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-20T16:18:08.000Z
- 最近活动: 2026-04-21T03:50:33.499Z
- 热度: 135.5
- 关键词: 具身智能, 机器人安全, 大语言模型, 规划系统, 安全评估, 推理模型
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2604-18463v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2604-18463v1
- Markdown 来源: ingested_event

---

## 具身智能的安全悖论

大语言模型作为机器人系统的规划器正变得越来越普遍。从家庭服务机器人到工业机器人，从自动驾驶到无人机控制，LLM驱动的规划系统正在渗透到物理世界的各个角落。然而，一个根本性的问题尚未得到充分回答：这些模型在规划时究竟有多安全？

传统观念可能认为，如果一个模型能够很好地完成规划任务，那么它自然也会避免危险的行动。但最新研究揭示了一个令人警醒的事实：规划能力和安全意识是两个相对独立的维度，模型可以在拥有出色规划能力的同时，对潜在危险视而不见。这一发现对于正在快速发展的具身智能领域具有重要的警示意义。

## DESPITE基准：系统性安全评估框架

为了科学评估LLM规划器的安全性，研究团队开发了DESPITE基准测试。这是一个包含12,279个任务的大规模测试集，涵盖了物理危险和规范危险两大类别。物理危险包括可能导致人身伤害或财产损失的场景，如碰撞、跌落、触电等；规范危险则涉及违反社会规范、伦理准则或法律法规的行为。

DESPITE的设计亮点在于其完全确定性的验证机制。每个测试用例都有明确的正确答案，可以客观判断模型生成的计划是否安全。这种确定性验证避免了主观评估带来的偏差，确保了测试结果的可信度和可复现性。

## 核心发现：能力与安全脱钩

研究团队对23个主流大语言模型进行了全面测试，结果揭示了一系列值得深思的现象。

### 规划能力的规模效应

实验数据显示，开源模型的规划能力随参数规模增长而显著提升。在参数量从30亿到6710亿的范围内，规划准确率从0.4%飙升至99.3%。这一结果验证了规模定律在规划任务上的适用性——更大的模型确实能够更好地理解和执行复杂的规划指令。

然而，与规划能力的显著提升形成鲜明对比的是，安全意识的表现却相对平稳。在同一参数范围内，安全意识得分仅从38%微增至57%，增长幅度远小于规划能力的提升。这种严重的不匹配揭示了当前大语言模型训练范式的根本缺陷：模型被优化以完成任务，而非安全地完成任务。

### 危险计划的生成率

最令人担忧的发现是，即使是规划能力最强的模型，仍有28.3%的概率生成危险计划。具体来说，表现最好的模型在仅0.4%的任务上无法生成有效计划，但在超过四分之一的任务中生成了包含安全隐患的计划。这意味着，如果你依赖这样的模型来控制物理机器人，平均每四个任务中就可能有一个涉及安全风险。

### 乘法关系假说

研究团队提出了一个解释性的框架：规划能力和安全意识之间存在乘法关系。模型安全完成任务的总体概率等于规划准确率与安全意识的乘积。这一框架解释了为什么大模型虽然规划能力更强，但安全完成任务的绝对数量增加主要来自于规划能力的提升，而非对危险的更好识别和规避。

## 推理模型的安全优势

在测试的模型中，三类专有推理模型展现出了明显更高的安全意识，达到了71%至81%的水平。这一发现表明，推理能力的训练可能间接促进了模型对潜在风险的识别和评估。

然而，这种优势并未在开源推理模型中复现。开源推理模型的安全意识得分仍然低于57%，与非推理模型处于同一水平。这一差异可能源于训练数据、训练方法或模型架构的不同，值得进一步研究。

## 对具身智能部署的启示

这些发现对正在将大语言模型集成到物理系统中的开发者和研究者提出了严峻的挑战。随着前沿模型的规划能力接近饱和，进一步提升安全意识将成为部署语言模型规划器的核心挑战。

### 安全护栏的必要性

研究结果明确表明，不能单纯依赖模型的内在能力来保证安全。在实际部署中，必须构建多层安全护栏，包括显式的安全检查、人类监督、物理限制等多重机制。将大语言模型直接用于控制物理系统而不加额外安全措施，是不负责任的。

### 训练范式的反思

当前的大语言模型训练主要关注任务完成率和有用性，安全性往往只是事后考虑。DESPITE的研究结果呼吁将安全意识的培养纳入模型训练的核心目标。这可能需要在训练数据中增加更多安全相关的样本，或者设计专门的安全优化目标。

### 评估标准的演进

传统的模型评估主要关注准确率和性能指标，DESPITE基准的提出代表了评估范式的演进。未来的模型评估应该更加全面地考虑安全性、鲁棒性和伦理合规性，而不仅仅是任务完成能力。

## 未来研究方向

DESPITE基准的发布为具身智能安全研究提供了重要的工具和数据基础。未来的研究可以从以下几个方向深入探索。

首先是安全意识的机制研究——究竟是什么让某些模型（如专有推理模型）具有更好的安全意识？这种能力能否通过特定的训练方法迁移到其他模型？

其次是安全增强技术的开发，包括后训练对齐、安全提示工程、规划验证机制等方法，以在不牺牲规划能力的前提下提升模型的安全表现。

最后是更全面的安全评估框架，DESPITE目前主要关注规划和决策层面的安全，未来可以扩展到执行监控、异常处理、人机协作等更广泛的场景。

## 结语

大语言模型在具身智能中的应用前景广阔，但DESPITE的研究结果提醒我们，技术进步不能以牺牲安全为代价。规划能力和安全意识的失衡是一个系统性问题，需要学术界、工业界和监管机构的共同努力来解决。只有在确保安全的前提下，具身智能才能真正造福人类社会。