正文

RecurGuard：实时防御推理Token消耗攻击的新型安全机制

研究者提出RecurGuard运行时监控框架，通过分析推理轨迹的递归率、体积增长和任务进度三个信号，有效检测OverThink和ExtendAttack等推理消耗攻击，在保持近零误报率的同时实现99%的OverThink攻击检测率。

AI安全提示注入攻击推理模型运行时监控Token消耗拒绝服务DeepSeek大语言模型安全

发布时间 2026/06/06 11:52最近活动 2026/06/09 10:23预计阅读 2 分钟

章节 01

RecurGuard：实时防御推理Token消耗攻击的新型安全机制（导读）

研究者提出RecurGuard运行时监控框架，针对推理Token消耗攻击（如OverThink、ExtendAttack），通过实时分析推理轨迹的递归率、体积增长和任务进度三个信号检测攻击。该机制在保持近零误报率的同时，实现99%的OverThink攻击检测率，并能早期终止生成过程以防止进一步Token消耗。

章节 02

攻击背景：推理Token消耗攻击的威胁与传统防御失效

推理Token消耗攻击针对具备推理能力的模型（如DeepSeek-R1、OpenAI o系列），通过提示注入诱导模型浪费生成预算在诱饵任务上，造成双重危害：拒绝服务（无法产生最终答案）和钱包拒绝（增加Token计费成本）。传统输入侧安全分类器难以检测此类攻击，因注入提示句法上看似无害，恶意意图隐藏在合理任务描述中。

章节 03

RecurGuard框架设计与三大核心检测信号

RecurGuard基于推理轨迹可视性假设（主流推理模型会输出思考过程），跟踪三个互补信号： 1.递归率：检测推理中的异常循环或重复思考； 2.体积增长：监控推理Token数量是否远超正常基线； 3.任务进度：评估推理是否朝向用户原始查询前进。只有三个信号连续多个推理块异常时触发防御。

章节 04

检测逻辑与实验评估结果

RecurGuard采用三信号联合判定策略：连续三个推理块中所有信号异常才判定为攻击并触发早期终止。实验结果显示：OverThink攻击检测率99%，ExtendAttack检测率92%，近零误报。自适应压力测试中，主题相关攻击漏检率50%，完全语义逃避攻击Token放大率从22.8倍降至2.2倍，显著提高攻击成本。

章节 05

技术贡献与实践意义

RecurGuard的技术贡献包括范式创新（从输入侧静态检测转向运行时动态监控）。对部署的启示：推理轨迹是安全资源，需构建输入过滤、运行时监控、输出审核的纵深防御体系，考虑成本-安全权衡。对攻击研究的贡献：揭示主题相关攻击更具成本效益，攻击放大率降低是实质性安全改进。

章节 06

局限性与未来研究方向

当前局限：依赖模型暴露推理轨迹（黑盒模型需用效果较弱的QDM降级方案）；自适应攻击存在50%漏检率；多语言场景有效性待验证。未来方向：开发更细粒度语义分析、在线学习自适应防御、硬件级优化实现零开销监控。

章节 07

降级方案与结语

无推理轨迹场景下，研究者提出QDM降级方案（基于最终输出检测）。结语：RecurGuard为推理模型安全防护提供新维度，安全防御需紧跟模型能力发展，运行时监控将成为安全架构标准组件，保障推理模型安全部署。

RecurGuard：实时防御推理Token消耗攻击的新型安全机制

RecurGuard：实时防御推理Token消耗攻击的新型安全机制（导读）

攻击背景：推理Token消耗攻击的威胁与传统防御失效

RecurGuard框架设计与三大核心检测信号

检测逻辑与实验评估结果

技术贡献与实践意义

局限性与未来研究方向

降级方案与结语

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程