# MARS：基于边际对抗的风险控制早停策略

> MARS通过监控中间检查点的聚合投票动态，学习预测哪些推理轨迹可能改变答案，在保证准确率的同时节省25-47%的计算token。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-11T05:56:42.000Z
- 最近活动: 2026-06-12T01:25:11.826Z
- 热度: 120.5
- 关键词: 测试时扩展, 早停策略, 推理优化, 多数投票, MARS, 计算效率, LLM推理
- 页面链接: https://www.zingnex.cn/forum/thread/mars
- Canonical: https://www.zingnex.cn/forum/thread/mars
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/团队**：MARS研究团队
- **来源平台**：arXiv
- **原文标题**：MARS: Margin-Adversarial Risk-controlled Stopping for Parallel LLM Test-time Scaling
- **原文链接**：https://arxiv.org/abs/2606.12935
- **发布时间**：2026年6月11日

---

## 并行测试时扩展的计算困境

测试时扩展（Test-time Scaling）是提升大语言模型推理能力的有效策略。通过采样大量推理轨迹并对答案进行多数投票，模型可以显著提高在复杂任务上的准确率。然而，这种并行扩展方式存在一个根本性的效率问题：所有轨迹都必须运行到完成才能进行投票，这带来了巨大的计算开销。

研究团队观察到一个有趣的现象：如果在中间检查点探测部分完成的轨迹，可以提取当前答案而不中断生成过程。更重要的是，这些中间答案揭示了一个不断演化的聚合投票模式——随着推理的推进，某些答案逐渐领先，而另一些则被淘汰。

基于这一观察，一个自然的问题浮现：能否在保持准确率的前提下，提前终止那些不太可能影响最终结果的轨迹？

---

## MARS的核心思想：边际对抗停止规则

MARS（Margin-Adversarial Risk-controlled Stopping）提出了一种优雅的解决方案。它引入了一个基于边际的对抗停止规则，能够估计哪些活跃轨迹可能改变其答案，并在领先答案在保守边界下保持安全时停止生成。

MARS的关键在于分离处理两种不确定性来源：

**轨迹级切换概率**：MARS学习预测每个轨迹在后续生成中改变答案的概率。这决定了当前投票边际中有多少比例可能会被保留。

**对抗边界**：对于确实会改变答案的轨迹，它们会转向哪个答案是一个更难预测的问题。MARS通过从预热轨迹中校准的对抗边界来处理这种不确定性，采用保守估计来确保安全性。

当切换概率准确时，MARS能够以高概率保证早停答案与完整预算投票的结果一致。

---

## 实践实现：五特征逻辑模型

在实际应用中，MARS使用一个简单的五特征逻辑回归模型来近似oracle切换行为。这些特征可能包括：当前投票边际大小、轨迹的置信度、已生成长度、答案分布的熵等。

这种轻量级设计的优势在于：
- **计算开销极低**：逻辑回归的推理成本可以忽略不计
- **可解释性强**：特征权重揭示了哪些因素最能预测轨迹稳定性
- **泛化能力好**：简单模型往往比复杂模型更不容易过拟合

实验表明，这个简单的模型能够非常接近oracle切换行为，在实际部署中表现出色。

---

## 实验结果：显著的计算节省

在三个推理模型和三个竞赛数学基准上的评估显示，MARS取得了令人印象深刻的效率提升：

**相比标准自一致性**：MARS节省了**25-47%**的token，同时保持相同的准确率

**相比DeepConf Online**：MARS在已经过滤和截断弱轨迹的强基线之上，进一步节省了**14-29%**的token

DeepConf Online本身就是一个先进的置信度加权基线，能够动态过滤低置信度轨迹并提前截断弱轨迹。MARS能够在此基础上继续提升，证明了其方法的有效性和互补性。

---

## 技术贡献与理论保证

MARS的贡献不仅在于实践效果，还在于其理论框架。通过显式分离两种不确定性来源，MARS提供了一个分析测试时扩展早停问题的结构化方法。

在理论上，当切换概率准确时，MARS提供了形式化的保证：以高概率，早停答案等于完整预算投票的答案。这种风险控制的特性使得MARS特别适合对准确性敏感的应用场景。

此外，MARS的对抗边界设计体现了对最坏情况的考虑，这种保守主义在实际应用中往往能带来更稳健的表现。

---

## 应用前景与局限

MARS的方法对于任何使用并行测试时扩展的场景都具有潜在价值。从数学问题求解到代码生成，从逻辑推理到科学发现，凡是需要采样多条推理路径的应用都可能受益于MARS的效率提升。

然而，MARS目前主要针对多数投票的聚合策略。对于其他类型的聚合方法（如加权投票、基于置信度的选择等），可能需要相应的调整。此外，MARS的效果依赖于切换概率模型的准确性，在分布外场景下可能需要重新校准。

尽管如此，MARS代表了测试时扩展效率优化的重要进展，为如何在保持质量的同时降低计算成本提供了有价值的思路。