Zing 论坛

正文

MARS:基于边际对抗的风险控制早停策略

MARS通过监控中间检查点的聚合投票动态,学习预测哪些推理轨迹可能改变答案,在保证准确率的同时节省25-47%的计算token。

测试时扩展早停策略推理优化多数投票MARS计算效率LLM推理
发布时间 2026/06/11 13:56最近活动 2026/06/12 09:25预计阅读 2 分钟
MARS:基于边际对抗的风险控制早停策略
1

章节 01

【导读】MARS:边际对抗风险控制早停策略,准确率不变下节省25-47%计算token

MARS(Margin-Adversarial Risk-controlled Stopping)是arXiv 2026年6月11日发布的研究成果,针对并行测试时扩展的计算开销问题,通过监控中间检查点的聚合投票动态,预测可能改变答案的推理轨迹,采用边际对抗停止规则,在保证准确率的同时节省25-47%的计算token。核心是分离轨迹级切换概率与对抗边界两种不确定性,实现风险控制的早停。

2

章节 02

【背景】并行测试时扩展的计算困境

测试时扩展通过采样大量推理轨迹并多数投票提升LLM推理能力,但所有轨迹需运行到完成,带来巨大计算开销。研究团队观察到中间检查点可提取当前答案,且聚合投票模式随推理推进演化,引出问题:能否在保持准确率前提下提前终止无关轨迹?

3

章节 03

【方法】MARS的核心思想与实现

MARS引入边际对抗停止规则,估计活跃轨迹改变答案的可能性,在领先答案安全时停止生成。关键分离两种不确定性:1.轨迹级切换概率(预测轨迹后续改变答案的概率);2.对抗边界(保守估计改变答案的方向)。实践用五特征逻辑回归模型(特征含投票边际、轨迹置信度等),具有低开销、可解释、泛化好的优势。

4

章节 04

【实验】显著的计算节省效果

在三个推理模型和三个竞赛数学基准评估中,MARS表现优异:相比标准自一致性节省25-47%token且准确率不变;相比先进基线DeepConf Online(已过滤弱轨迹)进一步节省14-29%token,证明方法有效性与互补性。

5

章节 05

【结论】技术贡献与理论保证

MARS不仅有实践效果,还提供结构化分析框架:分离两种不确定性来源。理论上,当切换概率准确时,高概率保证早停答案与完整投票结果一致,风险控制特性适合准确性敏感场景;对抗边界设计考虑最坏情况,提升稳健性。

6

章节 06

【应用与局限】适用场景与未来方向

MARS适用于所有并行测试时扩展场景(数学求解、代码生成等)。局限:目前针对多数投票聚合策略,其他聚合需调整;依赖切换概率模型准确性,分布外场景需重新校准。仍为效率优化重要进展。