# 用代理指标预测大语言模型的下游性能

> 本文提出了一种基于 token 级别统计量（熵、top-k 准确率、专家 token 排名）构建代理指标的方法，在模型选择、数据选择和训练期预测三个场景中， consistently 超越了基于损失和计算的基线方法。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-18T16:17:15.000Z
- 最近活动: 2026-05-19T03:30:47.392Z
- 热度: 144.8
- 关键词: 代理指标, 性能预测, 模型选择, 数据选择, LLM训练, token统计
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-18607v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-18607v1
- Markdown 来源: ingested_event

---

# 用代理指标预测大语言模型的下游性能

## 引言

在大语言模型（LLM）的开发过程中，研究者经常需要做出关键的选择性决策：采用哪种架构？使用哪个预训练语料？选择哪种训练配方？这些决策的质量直接依赖于对模型下游性能的可靠预测。然而，当前常用的两种预测信号都存在根本性的局限：交叉熵损失（cross-entropy loss）与下游能力的关联性很差，而直接的下游评估则成本高昂、稀疏且往往在早期训练阶段缺乏信息量。2026年5月发表的论文提出了一种全新的思路——通过聚合专家撰写解决方案上的 token 级别统计量来构建代理指标（proxy metrics），在多个预测场景中都显著超越了传统方法。

## 传统预测信号的局限

### 交叉熵损失的不足

交叉熵损失是语言模型训练中最常用的优化目标，也是最常见的性能预测信号。然而，研究表明交叉熵损失与下游能力之间的关联性非常弱（Spearman Rho 仅为 0.36）。这主要是因为：

- 交叉熵损失是一个全局的、平均化的指标，它衡量的是模型在所有 token 上的平均预测准确性。
- 下游任务通常只依赖于模型在特定类型 token 上的表现，而这些 token 可能只占整个分布的很小一部分。
- 交叉熵损失无法区分"容易预测的 token"和"对任务关键的 token"。

### 直接下游评估的不足

直接在下游任务上评估模型似乎是最可靠的方法，但它存在以下问题：

- **计算成本高昂**：每次评估都需要完整的推理过程，对于大规模模型来说成本极高。
- **稀疏性**：由于成本限制，直接评估通常只能在训练的少数几个检查点进行，无法提供连续的反馈。
- **早期训练阶段缺乏信息量**：在训练的早期阶段，模型的能力还很弱，下游评估的结果往往接近随机水平，无法为决策提供有用的区分信号。

## 代理指标的核心思想

代理指标的核心思想是：利用专家撰写的解决方案（expert-written solutions）作为评估样本，从模型在这些样本上的 next-token 分布中提取 token 级别的统计量，然后聚合这些统计量来构建对下游性能的预测。

具体来说，代理指标利用了以下三种 token 级别统计量：

### 1. 熵（Entropy）

熵衡量模型对下一个 token 预测的不确定性。在专家解决方案上，较低的熵意味着模型对正确 token 的预测更加确信，这通常与更好的下游性能相关。

### 2. Top-k 准确率（Top-k Accuracy）

Top-k 准确率衡量专家选择的 token 是否出现在模型预测概率最高的 k 个 token 中。这个指标反映了模型"想到正确答案"的能力，即使它没有将正确答案排在第一位。

### 3. 专家 Token 排名（Expert Token Rank）

专家 token 排名衡量专家选择的 token 在模型预测排序中的位置。排名越靠前，说明模型的预测越接近专家的选择。

## 三种预测场景的评估

研究团队在三个重要的预测场景中对代理指标进行了全面评估：

### 场景一：跨家族模型选择（Cross-Family Model Selection）

在这个场景中，研究者需要从一组异构的推理模型中选择最佳模型。代理指标对异质推理模型群体进行了排名，平均 Spearman Rho 达到了 0.81，而交叉熵损失的 Spearman Rho 仅为 0.36。这意味着代理指标能够更准确地预测哪个模型在下游任务上表现更好。

### 场景二：预训练数据选择（Pretraining Data Selection）

在这个场景中，研究者需要从 25 个候选语料中为目标模型选择最佳的预训练数据。代理指标在约为直接评估 1/10,000 的计算成本下，可靠地对候选语料进行了排名，并将 Pareto 前沿推向了现有方法之外。

这一结果的意义在于：数据选择是预训练中最关键的决策之一，但传统的评估方法需要完整的预训练过程才能比较不同语料的效果。代理指标使得在极低的计算成本下进行数据选择成为可能。

### 场景三：训练期预测（Training-Time Forecasting）

在这个场景中，研究者需要在训练过程中预测模型未来的下游准确率。代理指标能够在 18 倍计算量的时间跨度上外推下游准确率，其误差约为现有替代方法的一半。

这意味着研究者可以利用代理指标来提前判断训练的走向，及时调整训练策略，避免在错误的方向上浪费计算资源。

## 为什么代理指标有效？

代理指标之所以有效，主要有以下几个原因：

### 1. 专家轨迹提供了高质量的信号

专家撰写的解决方案代表了"正确答案"的标准。在这些样本上评估模型的预测，可以直接衡量模型生成正确输出的能力，这与下游任务的目标高度一致。

### 2. Token 级别统计量捕捉了细粒度信息

与交叉熵损失这种全局平均化的指标不同，token 级别的统计量（熵、top-k 准确率、专家 token 排名）捕捉了更细粒度的信息。它们能够区分模型在不同类型 token 上的表现差异。

### 3. 计算效率高

代理指标的计算只需要模型在少量专家样本上进行前向传播，无需完整的下游任务评估。这使得代理指标可以在训练的各个阶段频繁计算，提供连续的反馈信号。

## 技术实现细节

### 专家轨迹的选择

专家轨迹的质量直接影响代理指标的预测能力。研究团队建议使用高质量的、多样化的专家解决方案，以确保代理指标能够捕捉到模型在不同类型任务上的表现。

### 统计量的聚合

三种 token 级别统计量（熵、top-k 准确率、专家 token 排名）可以单独使用，也可以组合使用。研究表明，组合使用多种统计量可以获得更好的预测效果。

### 样本效率

代理指标的一个优势是样本效率高：即使只使用少量的专家样本（如几十个），代理指标也能提供可靠的预测。这使得它在实际应用中具有很高的可行性。

## 局限性与未来方向

尽管代理指标展现了强大的预测能力，但仍有一些值得探索的方向：

- **专家轨迹的自动化生成**：当前依赖人工撰写的专家解决方案，未来可以探索利用高质量模型自动生成专家轨迹。

- **更多统计量的探索**：除了熵、top-k 准确率和专家 token 排名，可能还有其他有用的 token 级别统计量值得探索。

- **跨领域泛化**：当前评估主要集中在推理任务上，未来可以探索代理指标在其他领域（如代码生成、多模态理解等）中的适用性。

## 结语

"专家轨迹是评估模型能力的广泛有用的信号源"——这一结论为 LLM 开发过程中的性能预测提供了一个全新的视角。代理指标方法在模型选择、数据选择和训练期预测三个关键场景中展现出的强大能力，使其成为 LLM 开发工具箱中不可或缺的组成部分。

对于从事 LLM 研究和工程实践的开发者而言，代理指标方法提供了一种低成本、高效率的性能预测手段，可以帮助他们在模型开发的各个阶段做出更明智的决策，从而加速模型迭代、降低开发成本。

## 参考

- 论文地址：http://arxiv.org/abs/2605.18607v1
- 发布日期：2026年5月18日
