章节 01
RELISH架构导读:轻量级LLM文本回归的突破
RELISH(REgression with a Latent Iterative State Head)是面向大语言模型的轻量级文本回归架构,核心通过迭代精炼潜在状态头,直接从冻结LLM表示中预测标量值。其仅增加3.4-3.7M可训练参数(0.01-0.04%额外开销),显著超越现有文本回归基线方法,解决了当前LLM在连续数值预测任务中的效率与精度痛点。
正文
RELISH通过迭代精炼潜在状态头,直接从冻结的LLM表示中预测标量值,在仅增加3.4-3.7M可训练参数(0.01-0.04%额外开销)的情况下,显著超越现有文本回归基线方法。
章节 01
RELISH(REgression with a Latent Iterative State Head)是面向大语言模型的轻量级文本回归架构,核心通过迭代精炼潜在状态头,直接从冻结LLM表示中预测标量值。其仅增加3.4-3.7M可训练参数(0.01-0.04%额外开销),显著超越现有文本回归基线方法,解决了当前LLM在连续数值预测任务中的效率与精度痛点。
章节 02
文本回归要求从输入文本预测连续数值(如文章受欢迎程度、情感强度、代码复杂度等),现实中大量有价值信息以连续数值形式存在,但该任务常被低估。
章节 03
RELISH包含三个关键部分:
数值预测需多步推理(如评估文章受欢迎度需理解主题、时效性等),RELISH通过参数共享的迭代机制模拟渐进式理解过程,用极少参数实现复杂推理能力。
章节 04
RELISH仅需3.4-3.7M可训练参数,对主流LLM额外开销仅0.01-0.04%,远低于LoRA(0.26-0.42%,约10-40倍),且参数数量固定不依赖骨干模型规模。
在5个数据集(涵盖代码复杂度预测、文本质量评估等)及4种LLM骨干上,RELISH全面超越所有基线方法(自回归解码、回归感知推理、预测头家族),且在细粒度数值区分任务中表现更优(如0-1连续值预测更精确)。
章节 05
RELISH完全兼容冻结LLM骨干,无需修改基础模型:
覆盖内容平台(推荐优化)、金融(市场指标预测)、医疗(临床指标提取)、软件开发(代码质量评估)、教育(作文质量自动评分)等场景。
章节 06
章节 07
RELISH是LLM文本回归领域的重要突破,证明通过精巧架构设计可在极低参数开销下实现强大回归能力。其在参数效率与任务性能间找到理想平衡,为LLM适配研究提供启示:大模型时代,小型架构创新仍能产生巨大价值。