正文

MARS：基于边际对抗的风险控制早停策略

MARS通过监控中间检查点的聚合投票动态，学习预测哪些推理轨迹可能改变答案，在保证准确率的同时节省25-47%的计算token。

测试时扩展早停策略推理优化多数投票MARS计算效率LLM推理

发布时间 2026/06/11 13:56最近活动 2026/06/12 09:25预计阅读 2 分钟

章节 01

【导读】MARS：边际对抗风险控制早停策略，准确率不变下节省25-47%计算token

MARS（Margin-Adversarial Risk-controlled Stopping）是arXiv 2026年6月11日发布的研究成果，针对并行测试时扩展的计算开销问题，通过监控中间检查点的聚合投票动态，预测可能改变答案的推理轨迹，采用边际对抗停止规则，在保证准确率的同时节省25-47%的计算token。核心是分离轨迹级切换概率与对抗边界两种不确定性，实现风险控制的早停。

章节 02

【背景】并行测试时扩展的计算困境

测试时扩展通过采样大量推理轨迹并多数投票提升LLM推理能力，但所有轨迹需运行到完成，带来巨大计算开销。研究团队观察到中间检查点可提取当前答案，且聚合投票模式随推理推进演化，引出问题：能否在保持准确率前提下提前终止无关轨迹？

章节 03

【方法】MARS的核心思想与实现

MARS引入边际对抗停止规则，估计活跃轨迹改变答案的可能性，在领先答案安全时停止生成。关键分离两种不确定性：1.轨迹级切换概率（预测轨迹后续改变答案的概率）；2.对抗边界（保守估计改变答案的方向）。实践用五特征逻辑回归模型（特征含投票边际、轨迹置信度等），具有低开销、可解释、泛化好的优势。

章节 04

【实验】显著的计算节省效果

在三个推理模型和三个竞赛数学基准评估中，MARS表现优异：相比标准自一致性节省25-47%token且准确率不变；相比先进基线DeepConf Online（已过滤弱轨迹）进一步节省14-29%token，证明方法有效性与互补性。

章节 05

【结论】技术贡献与理论保证

MARS不仅有实践效果，还提供结构化分析框架：分离两种不确定性来源。理论上，当切换概率准确时，高概率保证早停答案与完整投票结果一致，风险控制特性适合准确性敏感场景；对抗边界设计考虑最坏情况，提升稳健性。

章节 06

【应用与局限】适用场景与未来方向

MARS适用于所有并行测试时扩展场景（数学求解、代码生成等）。局限：目前针对多数投票聚合策略，其他聚合需调整；依赖切换概率模型准确性，分布外场景需重新校准。仍为效率优化重要进展。

MARS：基于边际对抗的风险控制早停策略

【导读】MARS：边际对抗风险控制早停策略，准确率不变下节省25-47%计算token

【背景】并行测试时扩展的计算困境

【方法】MARS的核心思想与实现

【实验】显著的计算节省效果

【结论】技术贡献与理论保证

【应用与局限】适用场景与未来方向

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎