Zing 论坛

正文

RecurGuard:实时防御推理Token消耗攻击的新型安全机制

研究者提出RecurGuard运行时监控框架,通过分析推理轨迹的递归率、体积增长和任务进度三个信号,有效检测OverThink和ExtendAttack等推理消耗攻击,在保持近零误报率的同时实现99%的OverThink攻击检测率。

AI安全提示注入攻击推理模型运行时监控Token消耗拒绝服务DeepSeek大语言模型安全
发布时间 2026/06/06 11:52最近活动 2026/06/09 10:23预计阅读 2 分钟
RecurGuard:实时防御推理Token消耗攻击的新型安全机制
1

章节 01

RecurGuard:实时防御推理Token消耗攻击的新型安全机制(导读)

研究者提出RecurGuard运行时监控框架,针对推理Token消耗攻击(如OverThink、ExtendAttack),通过实时分析推理轨迹的递归率、体积增长和任务进度三个信号检测攻击。该机制在保持近零误报率的同时,实现99%的OverThink攻击检测率,并能早期终止生成过程以防止进一步Token消耗。

2

章节 02

攻击背景:推理Token消耗攻击的威胁与传统防御失效

推理Token消耗攻击针对具备推理能力的模型(如DeepSeek-R1、OpenAI o系列),通过提示注入诱导模型浪费生成预算在诱饵任务上,造成双重危害:拒绝服务(无法产生最终答案)和钱包拒绝(增加Token计费成本)。传统输入侧安全分类器难以检测此类攻击,因注入提示句法上看似无害,恶意意图隐藏在合理任务描述中。

3

章节 03

RecurGuard框架设计与三大核心检测信号

RecurGuard基于推理轨迹可视性假设(主流推理模型会输出思考过程),跟踪三个互补信号: 1.递归率:检测推理中的异常循环或重复思考; 2.体积增长:监控推理Token数量是否远超正常基线; 3.任务进度:评估推理是否朝向用户原始查询前进。只有三个信号连续多个推理块异常时触发防御。

4

章节 04

检测逻辑与实验评估结果

RecurGuard采用三信号联合判定策略:连续三个推理块中所有信号异常才判定为攻击并触发早期终止。实验结果显示:OverThink攻击检测率99%,ExtendAttack检测率92%,近零误报。自适应压力测试中,主题相关攻击漏检率50%,完全语义逃避攻击Token放大率从22.8倍降至2.2倍,显著提高攻击成本。

5

章节 05

技术贡献与实践意义

RecurGuard的技术贡献包括范式创新(从输入侧静态检测转向运行时动态监控)。对部署的启示:推理轨迹是安全资源,需构建输入过滤、运行时监控、输出审核的纵深防御体系,考虑成本-安全权衡。对攻击研究的贡献:揭示主题相关攻击更具成本效益,攻击放大率降低是实质性安全改进。

6

章节 06

局限性与未来研究方向

当前局限:依赖模型暴露推理轨迹(黑盒模型需用效果较弱的QDM降级方案);自适应攻击存在50%漏检率;多语言场景有效性待验证。未来方向:开发更细粒度语义分析、在线学习自适应防御、硬件级优化实现零开销监控。

7

章节 07

降级方案与结语

无推理轨迹场景下,研究者提出QDM降级方案(基于最终输出检测)。结语:RecurGuard为推理模型安全防护提供新维度,安全防御需紧跟模型能力发展,运行时监控将成为安全架构标准组件,保障推理模型安全部署。