Zing 论坛

正文

TwiSTAR:快慢结合的自适应推理生成式推荐框架

针对生成式推荐中固定推理策略的局限,TwiSTAR框架通过快慢结合的自适应推理,在保持准确率的同时显著降低推理延迟,为推荐系统效率优化提供新思路。

生成式推荐自适应推理语义ID推荐系统强化学习快慢结合
发布时间 2026/05/12 13:35最近活动 2026/05/13 10:26预计阅读 2 分钟
TwiSTAR:快慢结合的自适应推理生成式推荐框架
1

章节 01

TwiSTAR框架导读:快慢结合解决生成式推荐的效率与准确率权衡

本文介绍TwiSTAR框架,针对生成式推荐中固定推理策略的局限,通过快慢结合的自适应推理策略,在保持推荐准确率的同时显著降低推理延迟。框架核心是学习为每个用户序列自适应分配推理努力,结合快速检索、轻量排序和慢速推理工具,并通过强化学习训练的规划器智能决策,为推荐系统效率优化提供新思路。

2

章节 02

生成式推荐的推理困境:固定策略的两难

基于语义ID的生成式推荐是新范式,但现有方法采用固定推理策略(要么快速直接生成,要么慢速思维链推理),导致两难:快速模型在困难样本准确率次优;慢速模型延迟高且在简单案例浪费资源。如何平衡准确率与效率成为关键挑战。

3

章节 03

TwiSTAR框架:快慢结合的自适应推理架构

TwiSTAR框架核心是自适应分配推理努力,配备三大工具:1.快速SID检索器(毫秒级召回,适用于简单场景);2.轻量级候选排序器(快速过滤不相关项目);3.慢速推理模型(生成自然语言理由,处理复杂意图)。关键创新是将项目间协作知识转化为自然语言解释注入慢速模型。框架核心规划器通过监督预热+强化学习两阶段训练,根据用户历史复杂度、候选置信度等因素动态决策调用工具。

4

章节 04

实验验证:TwiSTAR在准确率与效率上的优势

在三个公开数据集评估显示:TwiSTAR相比固定策略基线一致提升准确率(尤其困难样本),同时保持简单样本效率;相比统一慢速推理显著降低延迟和资源消耗。对比基线:统一快速(低准确率、极低延迟)、统一慢速(高准确率、极高延迟),TwiSTAR实现较高准确率+中等延迟/资源消耗。

5

章节 05

TwiSTAR的技术贡献与实际应用价值

技术贡献包括:首次引入生成式推荐自适应推理范式;设计快慢结合三层架构;协作知识注入增强推理;两阶段Agentic训练策略。应用价值:对平台(降本、支持大规模请求、可解释);对用户(更快响应、高质量推荐、透明理由);对业务(降运营成本、提升留存、支持实时场景)。

6

章节 06

TwiSTAR的局限性与未来探索方向

当前局限:规划器跨域泛化能力待验证;工具设计固定;离线训练;仅优化准确率和延迟。未来方向:提升规划器泛化性;探索细粒度工具组合;在线学习适应数据变化;纳入多样性等多目标优化。