Zing 论坛

正文

VitaLLM:面向边缘设备的超紧凑三值LLM加速器

VitaLLM是一个硬件-软件协同设计的三值LLM推理加速器,采用异构双核计算策略和依赖感知调度框架,在0.223mm²面积和65.97mW功耗下实现70.70 tokens/s的解码吞吐量。

边缘AILLM加速器三值量化VitaLLM硬件-软件协同设计低功耗推理芯片设计
发布时间 2026/04/30 12:07最近活动 2026/05/01 10:29预计阅读 3 分钟
VitaLLM:面向边缘设备的超紧凑三值LLM加速器
1

章节 01

VitaLLM:超紧凑三值LLM加速器——边缘设备的AI新突破

导读:VitaLLM是一款面向边缘设备的硬件-软件协同设计三值LLM推理加速器,通过异构双核计算策略、依赖感知调度框架等创新,在0.223mm²面积和65.97mW功耗下实现70.70 tokens/s的解码吞吐量,为边缘部署LLM提供了高效解决方案。

2

章节 02

边缘AI部署的核心挑战与三值量化机遇

背景:大型语言模型(LLMs)向边缘设备部署面临两大核心障碍——内存带宽瓶颈(推理时频繁访问参数和KV缓存导致计算单元空闲)和功耗约束(传统高精度运算能耗过高)。三值量化(如BitNet b1.58)可将模型压缩至原大小的1/16并保持精度,但通用硬件部署存在工作负载不平衡、解码带宽瓶颈及数据依赖等问题。

3

章节 03

VitaLLM的异构双核计算策略

方法:VitaLLM采用异构双核计算策略,分工处理不同任务:

  • TINT-Cores:针对三值矩阵乘法的投影操作优化,高效执行{-1,0,+1}的点积计算;
  • BoothFlex-Core:支持混合精度运算的注意力核心,采用改进Booth编码处理注意力机制需求;
  • 协同机制:预填充阶段用TINT-Cores并行计算,解码阶段用BoothFlex-Core处理注意力,提升各阶段利用率。
4

章节 04

内存优化与调度框架创新

方法:VitaLLM引入两大优化机制:

  1. 领先一预测(LOP)机制:通过预测注意力分数分布,剪枝冗余KV缓存读取,减少内存访问;
  2. 依赖感知调度框架:分析计算图依赖,构建细粒度流水线,通过预取、推测执行隐藏非线性操作(激活、归一化)的延迟。
5

章节 05

硬件实现与性能表现

证据:VitaLLM基于TSMC 16nm工艺实现,关键指标:

  • 解码吞吐量:70.70 tokens/s;
  • 芯片面积:0.223 mm²;
  • 功耗:65.97 mW;
  • 性能密度:17.4 TOPS/mm²/W(FOM)。 与现有先进加速器相比,性能密度显著提升,70.70 tokens/s可支持流畅对话,低功耗和小面积适合边缘设备集成。
6

章节 06

扩展设计:BoothFlex-BS的精度敏捷推理

扩展:研究团队探索了位串行设计扩展BoothFlex-BS:

  • 精度敏捷:运行时动态调整计算精度,实现精度-效率权衡(低精度换吞吐量,高精度保质量);
  • 架构适应性:验证了VitaLLM架构的扩展性,可适应不同应用需求。
7

章节 07

VitaLLM对边缘AI生态的多重影响

影响:VitaLLM打破边缘LLM部署壁垒:

  • 隐私保护:本地推理避免数据上传云端,降低敏感场景(医疗、金融)隐私风险;
  • 离线可用:无网络或弱网环境仍能提供AI服务,适用于偏远地区、应急场景;
  • 成本效益:减少云端依赖,降低企业运营成本;
  • 设备普及:小面积低功耗可集成到手机、物联网、可穿戴设备中。
8

章节 08

技术趋势展望与结语

展望与结语:VitaLLM代表边缘AI加速器的重要方向:

  • 量化与专用硬件深度融合:极端量化(二值、三值)与硬件协同设计潜力巨大;
  • 动态精度调整:按需优化效率;
  • 内存计算一体化:减少数据搬运开销。 VitaLLM证明边缘设备运行LLM的可行性,推动"AI无处不在"愿景,未来将有更多高效智能服务落地边缘设备。