正文

Arm KleidiAI 赋能边缘设备：LLM-Runner 让大模型跑在 Arm 芯片上

Arm 官方推出的 LLM-Runner 项目展示了如何通过 KleidiAI 后端优化，在 Arm 架构设备上高效运行大语言模型，为边缘 AI 部署开辟新路径。

ArmKleidiAILLM边缘计算CMakeNEONSVE量化推理移动AI

发布时间 2026/05/21 19:44最近活动 2026/05/21 19:49预计阅读 2 分钟

章节 01

Arm LLM-Runner项目导读：KleidiAI赋能边缘设备运行大模型

Arm官方推出开源项目LLM-Runner，通过KleidiAI后端优化，在Arm架构设备上高效运行大语言模型（LLM），解决边缘AI部署中的算力、延迟、隐私等挑战。该项目支持量化推理等优化策略，为移动、嵌入式设备的LLM部署提供技术路径。

章节 02

随着LLM能力提升，边缘设备部署LLM成为行业焦点。传统云端推理存在延迟、隐私、成本问题，终端部署需解决算力效率与能耗优化。Arm架构作为移动/嵌入式主流，其生态优化对边缘AI普及至关重要。

章节 03

LLM-Runner是Arm开源项目，基于CMake构建系统，核心亮点是原生支持KleidiAI后端。KleidiAI是Arm专为AI设计的微内核集合，针对矩阵乘法、注意力机制等算子深度优化，利用NEON/SVE等SIMD指令集，根据Arm处理器特性动态选择最优实现，性能较纯软件实现有数倍提升。

章节 04

LLM-Runner采用模块化设计，核心组件包括模型加载器（支持多格式权重与量化）、计算后端（KleidiAI为默认，可扩展）、内存管理（优化张量分配）、推理引擎（支持自回归生成与KV-Cache）。项目用CMake构建，兼容Linux、Android及嵌入式Linux发行版。

章节 05

LLM-Runner采用多项优化：1.量化推理（INT8/INT4低精度，减少内存与计算量）；2.算子融合（合并连续操作，降低带宽压力）；3.多线程并行（动态调整线程池，最大化CPU利用率）；4.内存复用（张量池减少动态分配开销）。

章节 06

LLM-Runner为多场景带来可能：离线智能助手（无网络下提供翻译/问答）；工业物联网（工厂边缘节点实时故障诊断）；隐私敏感场景（医疗/金融本地处理敏感数据）；低延迟交互（语音助手/实时翻译毫秒级响应）。

章节 07

LLM-Runner作为Arm官方示例，展示Arm生态高效AI应用构建方式。Arm将持续迭代KleidiAI，新一代处理器的SME指令集普及将进一步降低边缘LLM部署门槛。开发者可通过该项目实践移动/嵌入式LLM部署。