正文

边缘设备LLM推理性能评测：Jetson AGX Orin上的量化与框架对比

一个针对NVIDIA Jetson AGX Orin平台的LLM推理性能基准测试项目，系统比较了llama.cpp与MLC两大框架在不同量化格式下的表现，为边缘AI部署提供数据支撑。

边缘AIJetsonLLM推理量化llama.cppMLC性能测试NVIDIA

发布时间 2026/04/18 07:40最近活动 2026/04/18 07:52预计阅读 3 分钟

章节 01

导读 / 主楼：边缘设备LLM推理性能评测：Jetson AGX Orin上的量化与框架对比

一个针对NVIDIA Jetson AGX Orin平台的LLM推理性能基准测试项目，系统比较了llama.cpp与MLC两大框架在不同量化格式下的表现，为边缘AI部署提供数据支撑。

章节 02

项目背景：边缘AI的崛起与挑战

随着大语言模型（LLM）能力的飞速提升，如何将这些强大的模型部署到资源受限的边缘设备上，已经成为AI工程领域的重要课题。NVIDIA Jetson AGX Orin作为当前最强大的边缘计算平台之一，凭借其64GB内存和强大的GPU算力，成为运行LLM的热门选择。然而，在边缘设备上实现高效推理并非易事——量化格式的选择、推理框架的取舍、内存与延迟的权衡，都需要精细的调优和充分的测试。

Crophes开源的orin-llm-bench项目正是为了解决这些问题而生。它提供了一套完整的基准测试工具和方法论，系统性地评估了llama.cpp和MLC（ML Compiler）两大主流框架在Jetson AGX Orin上的性能表现，为开发者在边缘设备上部署LLM提供了宝贵的参考数据。

章节 03

硬件平台

项目基于NVIDIA Jetson AGX Orin（推荐64GB版本）进行测试。这款设备搭载了Ampere架构GPU，拥有2048个CUDA核心和64GB LPDDR5内存，理论算力达到275 TOPS（INT8），是目前边缘设备中的佼佼者。

章节 04

软件栈

测试环境使用JetPack 6.0，包含CUDA 12.8和Ubuntu 24.04。项目依赖dusty-nv/jetson-containers工具来管理容器化环境，这种方案既保证了测试的可复现性，又简化了不同框架的切换流程。

章节 05

性能模式设置

为了确保测试结果反映设备的最佳性能，项目要求将设备设置为MAXN电源模式并最大化时钟频率：

sudo nvpmodel -m 0
sudo jetson_clocks

需要注意的是，切换电源模式会重启设备，这在自动化测试流程中需要特别处理。

章节 06

统一测试配置

为了保证测试结果的可比性，项目定义了一套统一的测试参数：

参数	设置值
提示词token数	512
生成token数	128
批量大小	2048
KV缓存精度	F16
GPU层卸载	全部层（-ngl 99）
Flash Attention	启用（llama.cpp）
重复次数	5次（llama.cpp）/ 1次（MLC）

这种配置模拟了真实应用场景：先处理一个中等长度的上下文（512 tokens），然后生成一段回复（128 tokens）。

章节 07

关键性能指标

项目主要关注两个核心指标：

预填充速率（Prefill Rate）：处理输入提示词的速度，单位为tokens/秒。这反映了模型处理上下文的能力。
解码速率（Decode Rate）：生成新token的速度，单位为tokens/秒。这决定了用户感受到的打字速度。

此外，项目还记录了峰值内存使用量（通过ru_maxrss获取），这对于内存受限的边缘设备尤为重要。

章节 08

llama.cpp：成熟稳定的C++实现

llama.cpp是目前最流行的本地LLM推理框架之一，以其高效的C++实现和广泛的模型支持著称。在Jetson平台上，项目通过jetson-containers运行llama.cpp容器，支持GGUF格式的模型。

模型获取与格式：

项目使用Hugging Face的hf CLI工具下载GGUF格式的量化模型。GGUF支持多种量化级别，从F16（半精度浮点）到Q4_0（4位整数量化），用户可以根据精度和速度的权衡选择合适的格式。

测试执行方式：

项目提供了llama_bench_runner.sh脚本来自动化批量测试，它会遍历指定目录下的所有.gguf文件并依次进行基准测试。对于单个模型的快速测试，也可以直接在容器内运行llama-bench命令。

版本兼容性注意事项：

项目特别指出，某些新模型（如GPT-Oss 20B的MXFP4格式）可能需要较新版本的llama.cpp。如果遇到tensor has invalid ggml type错误，需要从源码编译特定版本的llama.cpp。

边缘设备LLM推理性能评测：Jetson AGX Orin上的量化与框架对比

导读 / 主楼：边缘设备LLM推理性能评测：Jetson AGX Orin上的量化与框架对比

项目背景：边缘AI的崛起与挑战

硬件平台

软件栈

性能模式设置

统一测试配置

关键性能指标

llama.cpp：成熟稳定的C++实现

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

AI图像生成技术全景：商业API、开源模型与开发者工具完全指南