Zing 论坛

正文

AdaSR:自适应流式推理框架与分层相对策略优化

本文介绍AdaSR,一种让大模型在输入流式传输过程中进行推理的自适应框架,通过HRPO技术实现分层推理优化,在推理准确性、计算效率和流式延迟之间取得更好平衡。

流式推理自适应推理强化学习RLVRHRPO分层优化实时AI计算效率
发布时间 2026/06/13 01:56最近活动 2026/06/15 11:51预计阅读 2 分钟
AdaSR:自适应流式推理框架与分层相对策略优化
1

章节 01

【导读】AdaSR:自适应流式推理框架与HRPO分层优化技术

本文介绍arXiv论文(2606.14694v1)提出的AdaSR框架,旨在解决传统“先读取后思考”推理范式在动态场景(如音频流、实时传感器数据)中的局限。该框架通过分层推理架构(流式+深度阶段)与HRPO(分层相对策略优化)算法,实现自适应计算分配,在推理准确性、计算效率和流式延迟之间取得更好平衡。

2

章节 02

【背景】传统推理的局限与流式推理的挑战

传统推理遵循“先读取后思考”范式,仅适用于静态输入,无法应对动态场景中信息持续流入的需求。流式推理需满足实时响应、部分观测决策、动态资源分配及延迟-准确性权衡等要求,但现有方法依赖预构建轨迹的监督模仿学习,存在灵活性不足、适应性差、优化粒度粗等问题。

3

章节 03

【方法】AdaSR分层推理框架设计

AdaSR框架分为两个阶段:1.流式推理阶段:输入持续到达时进行增量更新,轻量计算并保持内部状态;2.深度推理阶段:输入完成后基于完整信息进行全局优化与最终审议。此外,框架引入自适应计算分配机制,根据输入特性和任务复杂度动态分配资源。

4

章节 04

【方法】HRPO分层相对策略优化算法

HRPO是GRPO的扩展,针对分层推理场景设计:1.细粒度优势分配:将优化分为流式和深度阶段,各阶段分配不同优势值,实现阶段特异性优化;2.多维度奖励:包括格式奖励(规范推理协议)、准确性奖励(保证最终性能)、自适应思维奖励(鼓励延迟感知的计算分配)。

5

章节 05

【证据】AdaSR实验性能分析

实验表明AdaSR优于监督微调基线:1.准确性:增量推理与两阶段协同提升基准测试表现;2.计算效率:自适应分配避免一刀切模式,节省资源;3.流式延迟:首token响应快,增量更新平滑,最终答案质量高。

6

章节 06

【应用】AdaSR的实际场景价值

AdaSR适用于多种场景:1.实时音视频理解(视频会议、直播分析等);2.交互式AI助手(实时理解用户输入,自然对话节奏);3.传感器数据处理(物联网、自动驾驶中的实时感知与决策)。

7

章节 07

【总结与展望】AdaSR的贡献与未来方向

AdaSR的贡献包括分层推理范式、自适应优化机制、细粒度RLVR方法,且代码开源、框架通用。未来可探索更多层级架构、token级计算控制、多模态扩展及硬件协同优化,推动实时AI推理发展。