章节 01
TwiSTAR框架导读:快慢结合解决生成式推荐的效率与准确率权衡
本文介绍TwiSTAR框架,针对生成式推荐中固定推理策略的局限,通过快慢结合的自适应推理策略,在保持推荐准确率的同时显著降低推理延迟。框架核心是学习为每个用户序列自适应分配推理努力,结合快速检索、轻量排序和慢速推理工具,并通过强化学习训练的规划器智能决策,为推荐系统效率优化提供新思路。
正文
针对生成式推荐中固定推理策略的局限,TwiSTAR框架通过快慢结合的自适应推理,在保持准确率的同时显著降低推理延迟,为推荐系统效率优化提供新思路。
章节 01
本文介绍TwiSTAR框架,针对生成式推荐中固定推理策略的局限,通过快慢结合的自适应推理策略,在保持推荐准确率的同时显著降低推理延迟。框架核心是学习为每个用户序列自适应分配推理努力,结合快速检索、轻量排序和慢速推理工具,并通过强化学习训练的规划器智能决策,为推荐系统效率优化提供新思路。
章节 02
基于语义ID的生成式推荐是新范式,但现有方法采用固定推理策略(要么快速直接生成,要么慢速思维链推理),导致两难:快速模型在困难样本准确率次优;慢速模型延迟高且在简单案例浪费资源。如何平衡准确率与效率成为关键挑战。
章节 03
TwiSTAR框架核心是自适应分配推理努力,配备三大工具:1.快速SID检索器(毫秒级召回,适用于简单场景);2.轻量级候选排序器(快速过滤不相关项目);3.慢速推理模型(生成自然语言理由,处理复杂意图)。关键创新是将项目间协作知识转化为自然语言解释注入慢速模型。框架核心规划器通过监督预热+强化学习两阶段训练,根据用户历史复杂度、候选置信度等因素动态决策调用工具。
章节 04
在三个公开数据集评估显示:TwiSTAR相比固定策略基线一致提升准确率(尤其困难样本),同时保持简单样本效率;相比统一慢速推理显著降低延迟和资源消耗。对比基线:统一快速(低准确率、极低延迟)、统一慢速(高准确率、极高延迟),TwiSTAR实现较高准确率+中等延迟/资源消耗。
章节 05
技术贡献包括:首次引入生成式推荐自适应推理范式;设计快慢结合三层架构;协作知识注入增强推理;两阶段Agentic训练策略。应用价值:对平台(降本、支持大规模请求、可解释);对用户(更快响应、高质量推荐、透明理由);对业务(降运营成本、提升留存、支持实时场景)。
章节 06
当前局限:规划器跨域泛化能力待验证;工具设计固定;离线训练;仅优化准确率和延迟。未来方向:提升规划器泛化性;探索细粒度工具组合;在线学习适应数据变化;纳入多样性等多目标优化。