章节 01
【导读】MARS:边际对抗风险控制早停策略,准确率不变下节省25-47%计算token
MARS(Margin-Adversarial Risk-controlled Stopping)是arXiv 2026年6月11日发布的研究成果,针对并行测试时扩展的计算开销问题,通过监控中间检查点的聚合投票动态,预测可能改变答案的推理轨迹,采用边际对抗停止规则,在保证准确率的同时节省25-47%的计算token。核心是分离轨迹级切换概率与对抗边界两种不确定性,实现风险控制的早停。
正文
MARS通过监控中间检查点的聚合投票动态,学习预测哪些推理轨迹可能改变答案,在保证准确率的同时节省25-47%的计算token。
章节 01
MARS(Margin-Adversarial Risk-controlled Stopping)是arXiv 2026年6月11日发布的研究成果,针对并行测试时扩展的计算开销问题,通过监控中间检查点的聚合投票动态,预测可能改变答案的推理轨迹,采用边际对抗停止规则,在保证准确率的同时节省25-47%的计算token。核心是分离轨迹级切换概率与对抗边界两种不确定性,实现风险控制的早停。
章节 02
测试时扩展通过采样大量推理轨迹并多数投票提升LLM推理能力,但所有轨迹需运行到完成,带来巨大计算开销。研究团队观察到中间检查点可提取当前答案,且聚合投票模式随推理推进演化,引出问题:能否在保持准确率前提下提前终止无关轨迹?
章节 03
MARS引入边际对抗停止规则,估计活跃轨迹改变答案的可能性,在领先答案安全时停止生成。关键分离两种不确定性:1.轨迹级切换概率(预测轨迹后续改变答案的概率);2.对抗边界(保守估计改变答案的方向)。实践用五特征逻辑回归模型(特征含投票边际、轨迹置信度等),具有低开销、可解释、泛化好的优势。
章节 04
在三个推理模型和三个竞赛数学基准评估中,MARS表现优异:相比标准自一致性节省25-47%token且准确率不变;相比先进基线DeepConf Online(已过滤弱轨迹)进一步节省14-29%token,证明方法有效性与互补性。
章节 05
MARS不仅有实践效果,还提供结构化分析框架:分离两种不确定性来源。理论上,当切换概率准确时,高概率保证早停答案与完整投票结果一致,风险控制特性适合准确性敏感场景;对抗边界设计考虑最坏情况,提升稳健性。
章节 06
MARS适用于所有并行测试时扩展场景(数学求解、代码生成等)。局限:目前针对多数投票聚合策略,其他聚合需调整;依赖切换概率模型准确性,分布外场景需重新校准。仍为效率优化重要进展。