Zing 论坛

正文

Oryx:在序列中动态切换注意力机制的混合模型新架构

研究人员提出Oryx架构,突破传统混合模型静态交替的设计范式,实现序列级别的动态mixer切换,90%以上参数共享,在1.4B规模下超越单一mixer基线,为长序列建模提供新思路。

大语言模型注意力机制状态空间模型Mamba混合架构序列建模高效推理长上下文
发布时间 2026/05/28 01:26最近活动 2026/05/28 23:51预计阅读 2 分钟
Oryx:在序列中动态切换注意力机制的混合模型新架构
1

章节 01

Oryx架构:动态切换注意力的混合模型新突破

研究人员提出Oryx架构,突破传统混合模型静态交替的设计范式,实现序列级别的动态mixer切换,90%以上参数共享,在1.4B规模下超越单一mixer基线,为长序列建模提供新思路。原作者为Oryx研究团队,来源为arXiv(2026-05-27发布,链接:http://arxiv.org/abs/2605.28769v1)。

2

章节 02

背景:注意力机制的困境与混合架构的局限

Softmax注意力机制是大模型基石,但计算复杂度呈二次方增长,长序列处理成本高。线性循环模型(如Mamba)虽效率高,但在长上下文检索/学习任务中落后Transformer。现有混合架构多为静态设计(层间交替或固定比例),假设所有token需求相同,与实际场景不符。

3

章节 03

Oryx核心设计:序列级动态切换与参数共享

Oryx在序列维度动态切换mixer(如注意力/线性循环机制),核心创新是90%+参数共享,不同mixer操作于相同内部表征,而非独立空间,既减少参数总量,又能根据token需求选择最优机制。

4

章节 04

实验验证:Oryx的性能表现

1.4B规模下,Oryx实例在平均语言建模任务上超越单一mixer基线(提升≥0.7个百分点);检索任务中,仅不到10%token用注意力模式即可达到Transformer基线性能,实现低开销下的上下文理解能力。

5

章节 05

技术启示与未来方向

Oryx揭示注意力与线性循环模型可共享表征,打破传统认知;序列级混合比静态层间混合更精细分配资源,降低成本同时保持性能;为大模型从业者提供路径:不牺牲长上下文能力的前提下降低推理成本,适用于长文档处理、代码生成等场景。

6

章节 06

Oryx的局限与待解决挑战

动态切换引入路由决策开销(需实际部署评估);90%参数共享可能限制特定任务表达能力;混合训练策略的最优比例与调度仍需探索。