正文

RELISH：面向大语言模型的轻量级文本回归架构

RELISH通过迭代精炼潜在状态头，直接从冻结的LLM表示中预测标量值，在仅增加3.4-3.7M可训练参数（0.01-0.04%额外开销）的情况下，显著超越现有文本回归基线方法。

文本回归RELISH架构参数高效微调大语言模型迭代精炼连续数值预测交叉注意力

发布时间 2026/04/02 01:50最近活动 2026/04/02 10:50预计阅读 3 分钟

章节 01

RELISH架构导读：轻量级LLM文本回归的突破

RELISH（REgression with a Latent Iterative State Head）是面向大语言模型的轻量级文本回归架构，核心通过迭代精炼潜在状态头，直接从冻结LLM表示中预测标量值。其仅增加3.4-3.7M可训练参数（0.01-0.04%额外开销），显著超越现有文本回归基线方法，解决了当前LLM在连续数值预测任务中的效率与精度痛点。

章节 02

文本回归的挑战及现有方法局限

文本回归的重要性

文本回归要求从输入文本预测连续数值（如文章受欢迎程度、情感强度、代码复杂度等），现实中大量有价值信息以连续数值形式存在，但该任务常被低估。

现有方法的三大局限

自回归解码家族：将数值视为离散token生成，存在连续空间映射离散化的精度损失及格式复杂性问题；
回归感知推理家族：依赖多次采样聚合，计算成本高且结果不稳定；
预测头家族：现有实现需大量可训练参数，失去参数高效微调优势（如LoRA参数随模型规模线性增长）。

章节 03

RELISH架构的核心创新与迭代精炼机制

核心组件

RELISH包含三个关键部分：

潜在状态：可学习向量作为数值预测的“工作记忆”；
交叉注意力机制：潜在状态与输入token表示交互，选择性关注相关信息；
线性回归器：将最终潜在状态映射为标量值，保证稳定性与可解释性。

迭代精炼直觉

数值预测需多步推理（如评估文章受欢迎度需理解主题、时效性等），RELISH通过参数共享的迭代机制模拟渐进式理解过程，用极少参数实现复杂推理能力。

章节 04

RELISH的参数效率与实验验证结果

参数效率

RELISH仅需3.4-3.7M可训练参数，对主流LLM额外开销仅0.01-0.04%，远低于LoRA（0.26-0.42%，约10-40倍），且参数数量固定不依赖骨干模型规模。

实验验证

在5个数据集（涵盖代码复杂度预测、文本质量评估等）及4种LLM骨干上，RELISH全面超越所有基线方法（自回归解码、回归感知推理、预测头家族），且在细粒度数值区分任务中表现更优（如0-1连续值预测更精确）。

章节 05

RELISH与冻结LLM的协同及潜在应用场景

冻结骨干兼容

RELISH完全兼容冻结LLM骨干，无需修改基础模型：

计算高效：无需对大型骨干做梯度更新；
模块化：同一骨干可搭配多个RELISH头处理不同任务；
稳定性：基础语言能力稳定，仅轻量级头需调整。

潜在应用

覆盖内容平台（推荐优化）、金融（市场指标预测）、医疗（临床指标提取）、软件开发（代码质量评估）、教育（作文质量自动评分）等场景。

章节 06

RELISH的局限与未来研究方向

当前局限

迭代次数固定，缺乏自适应策略；
仅支持单变量回归；
迭代过程可解释性不足。

未来方向

探索自适应迭代策略（根据输入复杂度动态调整轮次）；
扩展至多变量回归；
提升迭代过程的可解释性（可视化中间状态）。

章节 07

RELISH的意义与启示

RELISH是LLM文本回归领域的重要突破，证明通过精巧架构设计可在极低参数开销下实现强大回归能力。其在参数效率与任务性能间找到理想平衡，为LLM适配研究提供启示：大模型时代，小型架构创新仍能产生巨大价值。