Zing 论坛

正文

Uni-CTR:基于大语言模型的多领域CTR预测统一框架

Uni-CTR是ACM TOIS(CCF-A)录用的研究工作,提出了一种利用大语言模型进行多领域点击率预测的创新框架,实现了跨领域知识共享和零样本新领域预测。

CTR预测多领域学习大语言模型推荐系统零样本学习计算广告迁移学习TOIS
发布时间 2026/03/28 12:14最近活动 2026/03/28 12:20预计阅读 4 分钟
Uni-CTR:基于大语言模型的多领域CTR预测统一框架
1

章节 01

导读 / 主楼:Uni-CTR:基于大语言模型的多领域CTR预测统一框架

Uni-CTR是ACM TOIS(CCF-A)录用的研究工作,提出了一种利用大语言模型进行多领域点击率预测的创新框架,实现了跨领域知识共享和零样本新领域预测。

2

章节 02

研究背景:多领域CTR预测的挑战

CTR预测旨在预估用户点击某个物品(商品、广告、内容)的概率。在实际业务中,推荐系统往往需要同时服务多个场景:

  • 电商平台的不同品类(图书、数码、服饰)
  • 内容平台的不同频道(新闻、视频、社区)
  • 广告系统的不同投放位(信息流、搜索、横幅)

这些场景既有共通的用户行为模式,又有各自独特的特征分布。传统方法面临两难:

单领域建模:为每个场景单独训练模型,无法利用跨领域数据,且维护成本高。

简单联合训练:将所有数据混合训练一个模型,不同领域的特征分布差异可能导致"负迁移",反而降低效果。

多任务学习:如MMoE、PLE等方法虽然有所改进,但仍难以充分挖掘跨领域的深层语义关联。

3

章节 03

Uni-CTR的核心创新

Uni-CTR的核心洞察是:大语言模型在海量文本上预训练获得的语义理解能力,可以帮助识别和建模跨领域的共通性和差异性。其框架包含三个关键组件:

4

章节 04

1. LLM Backbone:跨领域语义提取

Uni-CTR首先利用大语言模型处理输入文本特征。LLM的强大表征能力使其能够:

  • 理解不同领域中相似概念(如"手机"和"iPhone")的语义关联
  • 捕捉跨领域的共通用户意图
  • 提供丰富的层次化表征(从底层词汇到高层语义)

论文实验中采用了Llama-2-7b作为主干模型,充分利用其24层Transformer结构提取多尺度特征。

5

章节 05

2. 领域特定网络:差异化建模

LLM提供的表征被输入到领域特定的网络中,学习各领域的独特模式。Uni-CTR设计了灵活的"阶梯式"(Ladder)结构:

  • 无阶梯(wo_block):直接使用LLM输出
  • LoRA适配(w_lora):轻量级参数微调
  • 自注意力增强(w_self_attention):增强领域内部特征交互
  • Transformer块(w_transformer_block):完整的领域适配层

这种设计允许根据领域间相似度灵活选择适配策略。

6

章节 06

3. 通用网络:零样本新领域预测

这是Uni-CTR最具创新性的设计。框架同时训练一个通用网络,学习所有已知领域的共享表征。当遇到全新的、训练时未见过的领域时,通用网络可以直接进行预测,实现真正的零样本迁移。

7

章节 07

模型架构

Uni-CTR的完整架构体现了模块化设计理念:

├── configs/              # 模型配置
│   ├── config.py         # Uni-CTR主配置
│   ├── config_multi_domain.py  # 多领域基线配置
│   └── config_single_domain.py # 单领域基线配置
├── layers/               # 网络层实现
│   ├── core.py           # 核心网络(含阶梯结构)
│   ├── interaction.py    # 特征交互模块
│   └── sequence.py       # 序列处理
├── models/               # 基线模型实现
│   ├── mmoe.py           # MMoE多任务模型
│   ├── ple.py            # PLE渐进式分层抽取
│   ├── star.py           # STAR多领域模型
│   └── ...               # 其他经典模型
├── preprocessing/        # 数据预处理
│   └── amazon_review_data/  # Amazon数据集处理
└── training/             # 训练脚本
    ├── main.py           # Uni-CTR训练
    ├── main_multi_domain.py
    └── main_single_domain.py
8

章节 08

关键技术参数

针对Amazon Review Data(2018)数据集的推荐配置:

参数 配置
主干模型 Llama-2-7b-hf
LLM层数 24层
文本嵌入维度 2048
最大序列长度 4096
阶梯频率 每4层提取一次表征
LoRA秩 4
注意力头数 2
学习率 8e-5(初始),最大5e-4
批次大小 3 × GPU数量
训练轮数 10
混合精度 启用