正文

Oryx：在序列中动态切换注意力机制的混合模型新架构

研究人员提出Oryx架构，突破传统混合模型静态交替的设计范式，实现序列级别的动态mixer切换，90%以上参数共享，在1.4B规模下超越单一mixer基线，为长序列建模提供新思路。

大语言模型注意力机制状态空间模型Mamba混合架构序列建模高效推理长上下文

发布时间 2026/05/28 01:26最近活动 2026/05/28 23:51预计阅读 2 分钟

章节 01

Oryx架构：动态切换注意力的混合模型新突破

研究人员提出Oryx架构，突破传统混合模型静态交替的设计范式，实现序列级别的动态mixer切换，90%以上参数共享，在1.4B规模下超越单一mixer基线，为长序列建模提供新思路。原作者为Oryx研究团队，来源为arXiv（2026-05-27发布，链接：http://arxiv.org/abs/2605.28769v1）。

章节 02

背景：注意力机制的困境与混合架构的局限

Softmax注意力机制是大模型基石，但计算复杂度呈二次方增长，长序列处理成本高。线性循环模型（如Mamba）虽效率高，但在长上下文检索/学习任务中落后Transformer。现有混合架构多为静态设计（层间交替或固定比例），假设所有token需求相同，与实际场景不符。

章节 03

Oryx核心设计：序列级动态切换与参数共享

Oryx在序列维度动态切换mixer（如注意力/线性循环机制），核心创新是90%+参数共享，不同mixer操作于相同内部表征，而非独立空间，既减少参数总量，又能根据token需求选择最优机制。

章节 04

实验验证：Oryx的性能表现

1.4B规模下，Oryx实例在平均语言建模任务上超越单一mixer基线（提升≥0.7个百分点）；检索任务中，仅不到10%token用注意力模式即可达到Transformer基线性能，实现低开销下的上下文理解能力。

章节 05

技术启示与未来方向

Oryx揭示注意力与线性循环模型可共享表征，打破传统认知；序列级混合比静态层间混合更精细分配资源，降低成本同时保持性能；为大模型从业者提供路径：不牺牲长上下文能力的前提下降低推理成本，适用于长文档处理、代码生成等场景。

章节 06

Oryx的局限与待解决挑战

动态切换引入路由决策开销（需实际部署评估）；90%参数共享可能限制特定任务表达能力；混合训练策略的最优比例与调度仍需探索。

Oryx：在序列中动态切换注意力机制的混合模型新架构

Oryx架构：动态切换注意力的混合模型新突破

背景：注意力机制的困境与混合架构的局限

Oryx核心设计：序列级动态切换与参数共享

实验验证：Oryx的性能表现

技术启示与未来方向

Oryx的局限与待解决挑战

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统