章节 01
导读 / 主楼:MM-SFD:面向短剧叙事的全新多模态推荐数据集
来自微信视频号的大规模短剧数据集,突破传统用户行为建模范式,通过捕捉连续片段间的叙事连贯性实现剧情感知推荐。
正文
来自微信视频号的大规模短剧数据集,突破传统用户行为建模范式,通过捕捉连续片段间的叙事连贯性实现剧情感知推荐。
章节 01
来自微信视频号的大规模短剧数据集,突破传统用户行为建模范式,通过捕捉连续片段间的叙事连贯性实现剧情感知推荐。
章节 02
传统的推荐系统建立在协同过滤和个性化建模的基础上,核心假设是:如果用户A和用户B喜欢相似的内容,那么用户A喜欢的其他内容也可能被用户B喜欢。这一假设在商品推荐、电影推荐等场景下表现良好,因为用户的偏好相对稳定,不同用户之间确实存在可迁移的偏好模式。
然而,短剧场景打破了这一假设。当用户正在观看一部连续剧集时,其下一步需求是确定的——继续看下一集。这种需求与用户的长期偏好无关,而是由当前剧情的叙事发展所决定。如果推荐系统不能理解"母亲逼嫁,苏清颜反抗并威胁报复"这一剧情节点之后应该衔接什么内容,再精准的个性化建模也无济于事。
MM-SFD 数据集的设计正是基于这一洞察:从"为用户推荐他们可能喜欢的内容"转向"为当前剧情推荐最连贯的续集"。这是一种根本性的范式转移,要求推荐系统具备理解叙事连贯性的能力。
章节 03
MM-SFD 的数据来源于微信视频号——全球领先的短视频平台之一,拥有数亿月活用户。选择这一数据源的优势在于:
数据集的具体规模分布如下:
| 数据集划分 | 视频对数 | 平均文本长度 | 平均时长(秒) | 片段数 | 续集数 |
|---|---|---|---|---|---|
| 训练集 | 241,545 | 268 | 474 | 8.7 | 2.2 |
| 验证集 | 14,231 | 247 | 431 | 8.1 | 2.1 |
| UGC测试集 | 11,175 | 294 | 533 | 9.6 | 2.4 |
| PGC测试集 | 1,613 | 76 | 58 | 2.6 | 1 |
| OOD测试集 | 1,443 | 78 | 60 | 2.7 | 1 |
三个测试集的设计体现了研究者对模型泛化能力的关注:UGC 测试集评估模型在用户生成内容上的表现,PGC 测试集检验对专业制作内容的处理能力,OOD 测试集则测试模型面对分布外数据的鲁棒性。
章节 04
MM-SFD 的一个核心特点是其多模态设计。每个样本包含文本、视觉和结构化关系三种模态的信息,要求模型具备跨模态理解能力。
章节 05
文本信息的提取采用了多智能体叙事蒸馏流程。首先通过自动语音识别(ASR)提取视频中的对话内容,然后使用多个专门设计的智能体对原始文本进行加工:
这种多智能体协作机制确保了文本表示既包含原始对话信息,又具备高层次的语义抽象,为模型理解叙事结构提供了丰富的信号。
章节 06
视觉信息的处理采用了基于拉普拉斯方差(清晰度)和香农熵(色彩分布)的关键帧选择算法。对于每个视频片段,系统会自动提取最具代表性的3帧画面,形成紧凑的视觉摘要。
这种设计在保证视觉信息完整性的同时,大幅降低了存储和计算开销。相比直接使用完整视频帧,关键帧表示更适合大规模训练和推理。
章节 07
数据集的核心创新在于显式建模连续片段之间的叙事关系。每个样本包含:
这种设计将推荐问题转化为一个多选题式的排序问题:给定当前剧情上下文,从候选集合中选出最连贯的续集。这种任务形式与真实的产品场景高度一致——当用户看完一集短剧后,平台需要决定接下来播放什么内容。
章节 08
MM-SFD 采用 JSON 格式存储,每个记录包含以下字段:
{
"text": "用户当前观看的剧情是:\"母亲逼嫁,苏清颜反抗并威胁报复。\"",
"docids": [
"524255_6",
"184549_7",
"482600_1",
"342714_1"
],
"pre_docid": "489605_12",
"frames": [
"vision_data_show/0/0.jpg",
"vision_data_show/0/1.jpg",
"vision_data_show/0/2.jpg"
]
}
其中 text 字段提供了叙事情境的自然语言描述,frames 字段指向关键帧图像文件,docids 列出了候选续集的标识。模型的任务是基于这些信息,从候选集合中选出最连贯的续集。