Zing 论坛

正文

Radial Consensus Score:超越多数投票的几何共识方法,让LLM答案选择更可靠

本文介绍RCS方法,通过计算答案嵌入向量的加权Fréchet均值作为语义中心,以候选答案到中心的径向距离进行排序,实现无需训练的最佳答案选择,在7个基准测试上 consistently 超越多数投票基线。

Radial Consensus Score多数投票答案选择语义共识Fréchet均值Best-of-NLLM推理几何方法
发布时间 2026/04/14 10:02最近活动 2026/04/15 09:50预计阅读 2 分钟
Radial Consensus Score:超越多数投票的几何共识方法,让LLM答案选择更可靠
1

章节 01

Radial Consensus Score:超越多数投票的几何共识方法,让LLM答案选择更可靠

本文介绍Radial Consensus Score(RCS)方法,通过计算答案嵌入向量的加权Fréchet均值作为语义中心,以候选答案到中心的径向距离排序,实现无需训练的最佳答案选择。该方法在7个基准测试上持续超越多数投票基线,为LLM答案选择提供更可靠的解决方案。

2

章节 02

答案选择的困境与多数投票的局限

当向LLM多次采样候选答案时,传统多数投票仅关注字符串表面形式,忽略语义内容。例如,语义相同但措辞不同的答案会被视为不同,导致无法识别潜在共识;若正确答案是少数,多数投票可能选错高频错误答案。

3

章节 03

RCS方法:几何直觉与核心步骤

几何直觉

语义空间中相似文本聚集,RCS通过语义中心(加权Fréchet均值)识别共识,选择离中心最近的答案。

核心步骤

  1. 计算语义中心:最小化到所有嵌入向量的距离平方和(Fréchet均值)
  2. 径向距离排序:按候选答案到中心的距离排序,选最近的
  3. 灵活权重:支持均匀、频率、概率三种权重方案

公式:语义中心 = argmin_c Σ(w_i × distance(c, embedding_i)²)

4

章节 04

实验验证:RCS的性能表现

在7个基准测试(涵盖短问答/长推理)、5个开源模型上,RCS各变体均超越多数投票等基线。随着采样数量N增加,优势更明显;可用于多智能体辩论场景;黑盒API场景(无概率信息)仍适用。

5

章节 05

RCS与现有方法的对比

  • vs多数投票:关注语义相似性,能识别不同表述的共识,避免选错高频错误答案
  • vs概率加权:不依赖模型概率(适合黑盒场景),可灵活结合概率信息
  • vs其他语义方法:无需训练、计算高效、即插即用
6

章节 06

实际应用建议

  1. 嵌入模型选择:优先用Sentence-BERT等语义相似度模型,领域场景选特定模型
  2. 权重方案:无概率用均匀/频率权重,有校准概率用概率权重
  3. 采样数量:权衡成本与效果,建议5-20之间
7

章节 07

局限性与未来方向

局限性

  • 依赖嵌入质量
  • 大N时计算Fréchet均值开销大
  • 主要验证英文场景

未来方向

  • 更高效的语义中心计算
  • 结合自我验证/工具使用
  • 扩展到代码生成、数学推理等任务

论文链接:http://arxiv.org/abs/2604.12196v1