Zing 论坛

正文

SCIN:面向大模型推理的交换机中心化网络内计算架构

SCIN通过交换机内加速器(ISA)和协同设计的通信架构,消除NVLink Sharp的冗余数据传输,实现8.7倍小消息和3.8倍大消息All-Reduce加速,TTFT提升1.74倍,支持网络内量化(INQ)降低带宽需求。

in-network computingAll-Reduceswitch-centricLLM inferencequantizationNVLinkdistributed training
发布时间 2026/03/30 17:59最近活动 2026/03/31 11:28预计阅读 2 分钟
SCIN:面向大模型推理的交换机中心化网络内计算架构
1

章节 01

SCIN架构核心要点导读

SCIN(Switch-Centric In-Network Architecture)是面向大模型推理的交换机中心化网络内计算架构,旨在解决分布式推理中的通信瓶颈。其核心创新包括交换机内加速器(ISA)、协同设计的通信架构及网络内量化(INQ)支持,可消除NVLink Sharp的冗余传输,实现8.7倍小消息和3.8倍大消息All-Reduce加速,LLM推理TTFT提升1.74倍,并降低带宽需求。

2

章节 02

大模型推理通信瓶颈与现有技术局限

大模型推理规模化部署面临通信开销挑战,分布式系统中All-Reduce操作常成性能瓶颈。现有NVLink Sharp技术虽将All-Reduce卸载到交换机,但存在两大限制:一是依赖GPU触发归约,导致归约后数据需传回源GPU再广播,引入冗余传输;二是无法支持非内存语义操作(如INQ),需以FP16/BF16精度运行,造成带宽浪费。

3

章节 03

SCIN交换机中心化架构设计

SCIN提出交换机中心化范式,将交换机从被动转发节点升级为主动计算参与者。关键创新包括:1. 交换机内加速器(ISA):主动发起内存操作,归约结果直接广播至目标节点,消除冗余;2. 协同通信架构:硬件层下沉同步逻辑,减少软件开销;3. INQ支持:ISA集成量化模块,将精度降至8比特,降低带宽需求且精度损失微乎其微。

4

章节 04

SCIN性能优化机制

SCIN通过两大机制优化性能:1. 消除冗余传输:采用单跳模式,归约后直接从交换机广播结果,将通信步骤从3步减至2步,降低延迟;2. 提升带宽效率:INQ将精度降至8比特,带宽需求减半,且精度损失可忽略,适用于大模型参数同步场景。

5

章节 05

SCIN实验验证与性能结果

研究团队在多FPGA系统实现SCIN原型验证。实验结果显示:All-Reduce操作中小消息加速8.7倍、大消息加速3.8倍;LLaMA-2模型端到端评估中,TTFT(首token时间)提升1.74倍,TPOT(每token时间)提升1.34倍。

6

章节 06

SCIN的技术意义与行业影响

SCIN推动网络计算架构从端点中心向交换机中心转变,使交换机成为主动计算节点。对行业的启示包括:1. 可编程网络:交换机可集成通用计算能力;2. 精度自适应传输:网络协议原生支持多精度;3. 软硬件协同设计:针对AI工作负载优化各层面。

7

章节 07

SCIN的局限性与未来方向

当前局限:FPGA原型性能有限,生态系统兼容性挑战,量化策略通用性待解决。未来方向:扩展至复杂网络内操作(如All-Gather),动态精度调整,结合光学网络技术进一步提升性能。