# ShellGames：基于大模型的SSH欺骗系统与动态网络防御

> 本文介绍ShellGames系统，一种基于大语言模型的SSH蜜罐，通过多种技术创新解决传统蜜罐在交互真实性和持久性方面的局限。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-16T14:40:08.000Z
- 最近活动: 2026-06-17T02:32:33.234Z
- 热度: 128.1
- 关键词: 网络欺骗, 蜜罐, SSH, 大语言模型, 网络安全, 主动防御, arXiv
- 页面链接: https://www.zingnex.cn/forum/thread/shellgames-ssh
- Canonical: https://www.zingnex.cn/forum/thread/shellgames-ssh
- Markdown 来源: ingested_event

---

# ShellGames：基于大模型的SSH欺骗系统与动态网络防御

网络欺骗和移动目标防御是网络安全领域的重要策略，旨在通过增加攻击者的不确定性来挫败其攻击意图。然而，长期以来存在一个核心挑战：如何维持与攻击者的长期、可信的交互会话。传统的蜜罐系统往往只能提供有限的交互能力，容易被经验丰富的攻击者识破。随着大语言模型能力的飞速发展，一个自然的想法浮现：能否利用LLM生成逼真的Shell交互，从而构建更具欺骗性的SSH蜜罐？ShellGames正是基于这一思路的创新系统，它巧妙地结合多种技术手段，解决了纯LLM方案在状态持久性、输出一致性和响应延迟等方面的固有限制。

## 原作者与来源

- **原作者/团队**：论文作者团队（arXiv:2606.17986v1）
- **来源平台**：arXiv
- **原文标题**：ShellGames: Speculative LLM-Driven SSH Deception
- **原文链接**：http://arxiv.org/abs/2606.17986v1
- **发布时间**：2026年6月16日

## 网络欺骗的困境

网络欺骗（Cyber Deception）和移动目标防御（Moving Target Defense）代表了主动防御的重要方向。与传统的被动防御不同，这些策略不试图直接阻止攻击，而是通过制造虚假信息和动态变化来迷惑攻击者，增加其攻击成本，并为防御者提供检测和响应的时间窗口。

然而，实现有效的网络欺骗面临诸多挑战：

### 交互真实性的难题

蜜罐系统需要与攻击者进行交互，但交互的真实性往往有限。低交互蜜罐只能模拟有限的服务响应，高交互蜜罐虽然提供更真实的体验，但部署和维护成本高昂，且存在被攻陷后成为攻击跳板的风险。

### 长期会话的维持

攻击者通常会在入侵后花费大量时间进行侦察和横向移动。如果蜜罐无法维持长期、一致的交互会话，攻击者很快就会意识到这是一个虚假环境而放弃继续深入。

### 行为一致性的要求

真实的系统具有内在的状态一致性。文件系统的变化、进程的状态、网络连接等信息需要保持一致。任何不一致都可能成为攻击者识破欺骗的线索。

## 纯LLM方案的局限性

大语言模型似乎为构建高交互蜜罐提供了新的可能。LLM能够生成逼真的文本响应，理解复杂的指令，甚至模拟技术对话。然而，直接将LLM用于SSH蜜罐存在几个根本性问题：

### 缺乏持久状态

LLM本身是无状态的，每次请求都是独立的。而真实的Shell会话需要维护文件系统状态、环境变量、当前工作目录等持久信息。没有状态管理，LLM无法提供一致的交互体验。

### 输出不一致

由于生成过程的随机性，LLM对相同输入可能产生不同的输出。在Shell环境中，这种不一致性会被立即察觉——同一个命令不应该在不同时间产生不同的结果。

### 幻觉问题

LLM可能生成看似合理但实际上错误的系统信息。在Shell环境中，这种幻觉可能导致明显的矛盾，如引用不存在的文件或进程。

### 响应延迟

LLM的推理需要时间，对于交互式Shell会话，明显的延迟会严重影响用户体验，也可能暴露系统的非真实本质。

### 易受行为颠覆

攻击者可能通过精心设计的输入试图让LLM暴露其非真实本质，或诱导其产生不当输出。

## ShellGames的五大技术创新

ShellGames通过五项互补技术的组合，有效解决了上述挑战：

### 自动思维链与少样本学习

为了提升响应的正确性，ShellGames采用自动思维链（Chain-of-Thought）和少样本学习技术。系统引导LLM在生成响应前进行推理，确保输出的逻辑一致性。同时，通过提供示例对话，帮助模型理解Shell交互的规范和风格。

### 内存管理系统

ShellGames实现了完善的内存管理机制，维护系统状态的连贯性。这包括文件系统状态、进程列表、环境变量、命令历史等。状态信息在会话期间持久保存，确保多次交互之间的一致性。

### 推测性命令执行

为了减少响应延迟，ShellGames引入了推测性执行机制。系统会基于上下文预测攻击者可能执行的命令，并提前在沙箱环境中执行，缓存结果。当实际命令与预测匹配时，可以立即返回结果，显著降低延迟。

### 复杂命令的智能路由

对于交互式命令（如vim、top等），ShellGames会将其路由到真实的沙箱环境中执行，而不是依赖LLM生成响应。这种混合策略既保证了复杂交互的真实性，又充分利用了LLM的生成能力。

### 颠覆检测机制

ShellGames利用Shell环境的受限输入输出域特性，实现了颠覆检测功能。系统监控输入模式，识别可能试图暴露系统本质或诱导不当行为的尝试，并采取相应的防御措施。

## 标准化基准测试

为了系统评估ShellGames的性能，研究团队开发了首个标准化的SSH蜜罐基准测试协议和数据集。该基准涵盖四个关键维度：

### 正确性评估

测试系统对标准Shell命令的响应准确性，包括文件操作、进程管理、网络查询等常见任务。

### 一致性评估

验证系统在多次执行相同命令序列时，输出和系统状态的一致性。

### 状态追踪评估

检验系统对文件系统变化、进程状态变化等动态信息的追踪能力。

### 鲁棒性评估

测试系统在面对异常输入、恶意构造命令和颠覆尝试时的稳定性。

## 实验结果与性能表现

实验结果证明了ShellGames的有效性：

- **正确性**：命令准确率达到0.898，比基线方法提升5.3个百分点
- **一致性**：序列级准确率达到0.918，比基线提升36个百分点
- **状态追踪**：状态追踪准确率达到0.98，比基线提升18.3个百分点
- **鲁棒性**：鲁棒性准确率达到0.95，比基线提升37个百分点

这些显著的改进表明，ShellGames的技术组合有效解决了纯LLM方案的核心局限。

## 用户研究验证

除了自动化评估，研究团队还进行了包含20名参与者的用户研究。参与者在自由探索环境下与ShellGames和真实Shell进行交互。

结果显示：

- ShellGames在真实感方面达到了与真实Shell相当的水平
- 在感知的命令覆盖度方面，ShellGames显著优于传统蜜罐
- 参与者难以在盲测中区分ShellGames和真实系统

这一用户研究验证了ShellGames在实际欺骗场景中的有效性。

## 应用场景与价值

ShellGames在网络安全领域具有广泛的应用价值：

### 攻击者行为分析

通过维持长期的可信交互，ShellGames能够收集更丰富的攻击者行为数据，帮助安全团队理解攻击技术和意图。

### 威胁情报收集

攻击者在ShellGames中执行的命令和使用的工具，可以作为威胁情报的重要来源。

### 攻击链延缓

逼真的交互环境可以延长攻击者在蜜罐中的停留时间，为防御者争取响应时间，同时消耗攻击者的资源。

### 训练与演习

ShellGames可以作为蓝队训练的工具，帮助安全人员熟悉攻击者的操作模式。

## 局限性与未来方向

ShellGames虽然取得了显著进展，但仍存在一些局限性：

### 资源消耗

LLM推理需要显著的计算资源，大规模部署可能成本较高。

### 复杂场景处理

某些高度复杂的交互场景（如编译大型项目、运行复杂脚本）可能仍面临挑战。

### 对抗性攻击

虽然实现了颠覆检测，但面对精心设计的对抗性攻击，系统仍可能被攻破。

未来的研究方向包括：优化资源效率、增强复杂场景处理能力、提升对抗鲁棒性、以及探索多模态蜜罐（结合文件系统、网络服务等）。

## 技术启示

ShellGames的设计为AI驱动的安全系统提供了重要启示：

### 混合架构的价值

纯AI方案往往存在局限，与确定性系统的混合可以取长补短。ShellGames中LLM与真实沙箱的结合正是这一原则的体现。

### 状态管理的重要性

对于交互式系统，状态管理是提供一致体验的关键。ShellGames的内存管理系统展示了如何在LLM之上构建状态层。

### 推测执行的通用性

推测执行技术不仅适用于ShellGames，也可以推广到其他需要低延迟AI响应的场景。

## 结语

ShellGames代表了网络欺骗技术的重要进展。通过巧妙地结合大语言模型的生成能力和传统系统的确定性保证，它成功构建了高度逼真的SSH蜜罐，解决了长期困扰该领域的交互真实性和持久性问题。随着网络攻击的日益复杂化，这类高级欺骗技术将在主动防御体系中扮演越来越重要的角色。ShellGames的技术创新也为其他AI驱动的交互系统提供了有价值的参考。