章节 01
【主楼】TTVS框架:无需标注数据的大模型测试时自我进化方案
TTVS(测试时变分合成)是一种让大型推理模型在测试阶段无需标注数据即可自我进化的新框架。它针对传统强化学习(如RLVR)依赖高质量标注数据的局限,通过动态生成语义等价的查询变体,帮助模型学习问题内在逻辑而非表面文本模式,最终实现比监督强化学习更优的性能。核心由在线变分合成与测试时混合探索两个模块构成。
正文
一种无需标注数据即可让大推理模型在测试时自我进化的新框架,通过动态生成语义等价的查询变体,实现比监督强化学习更优的性能。
章节 01
TTVS(测试时变分合成)是一种让大型推理模型在测试阶段无需标注数据即可自我进化的新框架。它针对传统强化学习(如RLVR)依赖高质量标注数据的局限,通过动态生成语义等价的查询变体,帮助模型学习问题内在逻辑而非表面文本模式,最终实现比监督强化学习更优的性能。核心由在线变分合成与测试时混合探索两个模块构成。
章节 02
传统强化学习(如RLVR)依赖大量可验证的标注奖励信号,但在医疗诊断、法律咨询等专业/新兴领域,标注数据获取成本极高甚至不可能。现有测试时适应方法受限于静态查询集合,易过度拟合文本模式,面对表述不同的相似问题性能急剧下降。
章节 03
将静态测试查询转化为动态训练流,生成多个语义等价但表述不同的变体(如调整措辞/顺序,保持核心逻辑不变),迫使模型学习问题结构而非文本模式,缓解过拟合。
采用平衡策略:
章节 04
在8种模型架构上实验显示:TTVS具有普适性,仅使用未标注测试数据,不仅超越其他测试时适应方法,还超过了使用大量高质量标注数据训练的最先进监督强化学习技术。
章节 05
章节 06
当前TTVS仍有改进空间: