Zing 论坛

正文

MM-SFD:面向短剧叙事的全新多模态推荐数据集

来自微信视频号的大规模短剧数据集,突破传统用户行为建模范式,通过捕捉连续片段间的叙事连贯性实现剧情感知推荐。

推荐系统短剧多模态数据集叙事感知微信视频号视频推荐跨模态学习内容理解机器学习
发布时间 2026/04/08 17:42最近活动 2026/04/08 17:50预计阅读 4 分钟
MM-SFD:面向短剧叙事的全新多模态推荐数据集
1

章节 01

导读 / 主楼:MM-SFD:面向短剧叙事的全新多模态推荐数据集

来自微信视频号的大规模短剧数据集,突破传统用户行为建模范式,通过捕捉连续片段间的叙事连贯性实现剧情感知推荐。

2

章节 02

推荐范式的范式转移

传统的推荐系统建立在协同过滤和个性化建模的基础上,核心假设是:如果用户A和用户B喜欢相似的内容,那么用户A喜欢的其他内容也可能被用户B喜欢。这一假设在商品推荐、电影推荐等场景下表现良好,因为用户的偏好相对稳定,不同用户之间确实存在可迁移的偏好模式。

然而,短剧场景打破了这一假设。当用户正在观看一部连续剧集时,其下一步需求是确定的——继续看下一集。这种需求与用户的长期偏好无关,而是由当前剧情的叙事发展所决定。如果推荐系统不能理解"母亲逼嫁,苏清颜反抗并威胁报复"这一剧情节点之后应该衔接什么内容,再精准的个性化建模也无济于事。

MM-SFD 数据集的设计正是基于这一洞察:从"为用户推荐他们可能喜欢的内容"转向"为当前剧情推荐最连贯的续集"。这是一种根本性的范式转移,要求推荐系统具备理解叙事连贯性的能力。

3

章节 03

数据集来源与规模

MM-SFD 的数据来源于微信视频号——全球领先的短视频平台之一,拥有数亿月活用户。选择这一数据源的优势在于:

  • 真实性:数据来自真实的内容消费场景,而非实验室环境下的人工标注
  • 规模性:覆盖超过25万对视频片段,涵盖多种题材和风格的短剧内容
  • 多样性:包含用户生成内容(UGC)、专业生成内容(PGC)和分布外内容(OOD)三种测试场景

数据集的具体规模分布如下:

数据集划分 视频对数 平均文本长度 平均时长(秒) 片段数 续集数
训练集 241,545 268 474 8.7 2.2
验证集 14,231 247 431 8.1 2.1
UGC测试集 11,175 294 533 9.6 2.4
PGC测试集 1,613 76 58 2.6 1
OOD测试集 1,443 78 60 2.7 1

三个测试集的设计体现了研究者对模型泛化能力的关注:UGC 测试集评估模型在用户生成内容上的表现,PGC 测试集检验对专业制作内容的处理能力,OOD 测试集则测试模型面对分布外数据的鲁棒性。

4

章节 04

多模态数据处理流程

MM-SFD 的一个核心特点是其多模态设计。每个样本包含文本、视觉和结构化关系三种模态的信息,要求模型具备跨模态理解能力。

5

章节 05

文本模态:多智能体叙事蒸馏

文本信息的提取采用了多智能体叙事蒸馏流程。首先通过自动语音识别(ASR)提取视频中的对话内容,然后使用多个专门设计的智能体对原始文本进行加工:

  • 情节摘要智能体:将对话内容浓缩为剧情梗概
  • 角色分析智能体:识别关键角色及其关系
  • 冲突提取智能体:识别剧情中的冲突点和转折点

这种多智能体协作机制确保了文本表示既包含原始对话信息,又具备高层次的语义抽象,为模型理解叙事结构提供了丰富的信号。

6

章节 06

视觉模态:关键帧选择

视觉信息的处理采用了基于拉普拉斯方差(清晰度)和香农熵(色彩分布)的关键帧选择算法。对于每个视频片段,系统会自动提取最具代表性的3帧画面,形成紧凑的视觉摘要。

这种设计在保证视觉信息完整性的同时,大幅降低了存储和计算开销。相比直接使用完整视频帧,关键帧表示更适合大规模训练和推理。

7

章节 07

结构化关系:连续片段建模

数据集的核心创新在于显式建模连续片段之间的叙事关系。每个样本包含:

  • pre_docid:源视频片段的唯一标识
  • docids:候选续集片段的标识列表(通常为4个候选)
  • ground-truth:来自原始叙事流的正确续集

这种设计将推荐问题转化为一个多选题式的排序问题:给定当前剧情上下文,从候选集合中选出最连贯的续集。这种任务形式与真实的产品场景高度一致——当用户看完一集短剧后,平台需要决定接下来播放什么内容。

8

章节 08

数据格式与使用示例

MM-SFD 采用 JSON 格式存储,每个记录包含以下字段:

{
  "text": "用户当前观看的剧情是:\"母亲逼嫁,苏清颜反抗并威胁报复。\"",
  "docids": [
    "524255_6",
    "184549_7",
    "482600_1",
    "342714_1"
  ],
  "pre_docid": "489605_12",
  "frames": [
    "vision_data_show/0/0.jpg",
    "vision_data_show/0/1.jpg",
    "vision_data_show/0/2.jpg"
  ]
}

其中 text 字段提供了叙事情境的自然语言描述,frames 字段指向关键帧图像文件,docids 列出了候选续集的标识。模型的任务是基于这些信息,从候选集合中选出最连贯的续集。