Zing 论坛

正文

十亿用户规模实时LLM用户画像:视频推荐系统的语义化革新

本文介绍首个在十亿用户规模商业视频平台部署的实时LLM用户画像系统,通过知识蒸馏和异步推理解决在线LLM计算挑战,在A/B测试中显著提升用户观看价值。

推荐系统LLM应用用户画像知识蒸馏视频推荐大规模系统个性化推荐语义理解A/B测试
发布时间 2026/06/10 23:18最近活动 2026/06/11 11:23预计阅读 3 分钟
十亿用户规模实时LLM用户画像:视频推荐系统的语义化革新
1

章节 01

【导读】十亿用户规模实时LLM用户画像:视频推荐的语义化革新

核心观点:本文介绍首个在十亿用户规模商业视频平台部署的实时LLM用户画像系统,通过知识蒸馏和异步推理解决在线LLM计算挑战,在A/B测试中显著提升用户观看价值。

原作者与来源

  • 原作者:论文作者团队(arXiv标准署名)
  • 来源平台:arXiv
  • 原文标题:LLM-Based User Personas for Recommendations at Scale
  • 原文链接:http://arxiv.org/abs/2606.12198v1
  • 发布时间:2026-06-10
2

章节 02

背景:传统推荐系统的困境与LLM的机遇

传统推荐系统的困境

传统推荐系统依赖结构化用户-物品交互数据(ID矩阵),存在以下局限:

  1. 语义信息缺失:无法解释用户偏好原因,限制可解释性与精准度;
  2. 冷启动问题:新用户/物品缺乏交互历史,难以有效推荐;
  3. 动态适应性差:模型更新需重新训练,无法实时响应兴趣转移;
  4. 探索-利用困境:倾向推荐已知内容,难以探索潜在兴趣。

LLM的机遇

LLM具备丰富世界知识、强大推理能力、自然语言生成及上下文学习能力,为解决上述问题提供可能,但面临十亿用户规模下实时低成本推理的挑战。

3

章节 03

方法:核心创新与技术架构设计

核心创新点

  1. 自然语言用户兴趣画像:生成人类可读描述(如“用户关注科技评测与美食探店”),提升可解释性与语义丰富度;
  2. 利用-探索平衡机制:结合现有兴趣总结与新颖主题引入,避免内容疲劳与体验下降;
  3. 成本高效推理架构:通过知识蒸馏、异步推理、语义聚类优化降低成本。

技术架构详解

  • 分层架构:用户行为→特征工程→轻量画像模型→[可选]LLM精化→推荐引擎;
  • 知识蒸馏:训练轻量学生模型模仿LLM,80%请求由学生模型处理(成本仅1/100);
  • 异步LLM推理:请求队列+批处理+缓存+增量更新,不阻塞主推荐路径;
  • 语义聚类输入优化:将用户交互视频聚类为主题(如“科技评测35%”),减少LLM输入长度。
4

章节 04

证据:实验与A/B测试验证效果

实验与评估结果

离线评估

  • 画像质量:人工评估更准确完整,BERTScore验证与真实行为一致性;
  • 推荐效果:优于基线方法,长尾内容与冷启动场景优势明显。

用户研究

  • 85%用户认为画像准确反映兴趣,能理解推荐原因;
  • 满意度较传统推荐显著提升,赞赏内容多样性与新颖性。

在线A/B测试

  • 核心指标:观看时长、点击率显著提升,用户留存正向趋势,内容多样性增加;
  • 业务价值:支撑十亿级用户实时服务,成本可控,用户engagement与平台价值双提升。
5

章节 05

技术挑战与应对方案

技术挑战与解决方案

  1. 延迟要求:预计算缓存常用画像、异步更新、分层架构(轻量模型快速响应);
  2. 成本约束:知识蒸馏降低LLM调用频率、语义聚类减少输入长度、批处理优化GPU利用率;
  3. 画像一致性:结构化模板、温度参数/随机种子控制、时序平滑机制;
  4. 隐私合规:差分隐私技术、用户可控透明度/编辑功能、数据最小化原则。
6

章节 06

行业意义与未来研究方向

行业意义

  • 范式转变:从ID-based到语义理解推荐,LLM成为核心组件,可解释性与可控性成标配;
  • 工程可行性:证明十亿规模下LLM推荐系统的成本可控性;
  • 用户中心设计:透明化推荐过程,用户可理解并影响推荐。

局限性与未来方向

  • 局限:计算资源仍密集、LLM存在幻觉、跨文化迁移需优化;
  • 未来:多模态画像、因果推理、联邦学习、强化学习优化利用-探索平衡。