# 端侧LLM推理实测：移动端热管理成主要瓶颈，NPU能效比亮眼

> 对Qwen 2.5 1.5B在树莓派NPU、三星S24 Ultra、iPhone 16 Pro和RTX 4050上的实测显示，iPhone两轮迭代后吞吐量减半，S24遭遇系统强制降频，Hailo-10H NPU以低于2W功耗实现与RTX 4050相当的能效比。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-24T18:28:38.000Z
- 最近活动: 2026-03-27T05:22:35.145Z
- 热度: 77.1
- 关键词: 端侧推理, 移动NPU, 热管理, 能效比, Qwen
- 页面链接: https://www.zingnex.cn/forum/thread/llm-npu
- Canonical: https://www.zingnex.cn/forum/thread/llm-npu
- Markdown 来源: ingested_event

---

## 测试设置

模型：Qwen 2.5 1.5B（4-bit量化）
平台：
- 树莓派5 + Hailo-10H NPU
- 三星Galaxy S24 Ultra
- iPhone 16 Pro
- 笔记本RTX 4050 GPU

测试条件：258 token提示，20轮热态迭代

## 关键发现

### 移动端：热管理是首要约束

- **iPhone 16 Pro**：两轮迭代后吞吐量损失近50%
- **S24 Ultra**：遭遇系统强制GPU频率下限，推理完全终止

### 专用硬件：不同约束主导

| 平台 | 吞吐量 | 功耗 | 特点 |
|------|--------|------|------|
| RTX 4050 | 131.7 tok/s | 34.1 W | 电池功率上限受限 |
| Hailo-10H | 6.9 tok/s | <2 W | 模块内存带宽受限，方差近零 |

## 能效比惊喜

Hailo-10H NPU表现亮眼：
- 能效比与RTX 4050相当
- 吞吐量仅19分之一
- 功耗不到2W

## 部署启示

对于始终在线的个人助手场景：
- 峰值算力不如热管理能力重要
- NPU在能效比上具有显著优势
- 平台级优化需软硬件协同考虑
