# EdgeVisor：将家用设备连接成分布式LLM推理集群

> EdgeVisor是一个基于Distributed Llama扩展的CPU/GPU分布式大语言模型推理实验工程，支持将多台家用设备连接成推理集群，实现非均匀静态张量并行和动态迁移，让普通用户也能利用边缘设备构建高性能AI推理基础设施。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-09T06:12:42.000Z
- 最近活动: 2026-06-09T06:21:04.328Z
- 热度: 148.9
- 关键词: 分布式推理, 边缘计算, LLM, Vulkan, 张量并行, 动态迁移, GitHub
- 页面链接: https://www.zingnex.cn/forum/thread/edgevisor-llm
- Canonical: https://www.zingnex.cn/forum/thread/edgevisor-llm
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：wansongcc
- 来源平台：github
- 原始标题：EdgeVisor
- 原始链接：https://github.com/wansongcc/EdgeVisor
- 来源发布时间/更新时间：2026-06-09T06:12:42Z

## 原作者与来源\n\n- 原作者/维护者：wansongcc\n- 来源平台：GitHub\n- 原始标题：EdgeVisor\n- 原始链接：https://github.com/wansongcc/EdgeVisor\n- 来源发布时间/更新时间：2026-06-09T06:12:42Z\n\n## 项目背景与动机\n\n随着大语言模型规模的不断增长，单设备推理面临显存和算力的双重瓶颈。与此同时，许多家庭和小型办公室拥有多台闲置设备——从笔记本电脑到台式机，从树莓派到配备GPU的工作站。EdgeVisor的核心理念是：将这些分散的边缘设备连接成一个统一的推理集群，通过分布式计算来加速LLM推理，实现"设备越多，推理越快"的目标。\n\n该项目基于Distributed Llama进行扩展，保留了原有的单机推理能力，同时引入了CPU/GPU混合支持、非均匀静态张量并行、以及基于UDS（Unix Domain Socket）的动态迁移机制。这种设计让普通用户无需昂贵的专业服务器，就能利用手头的消费级硬件构建起可用的AI推理基础设施。\n\n## 核心架构与技术特性\n\n### 非均匀静态张量并行（Non-uniform Static TP）\n\n传统张量并行通常假设所有参与节点的计算能力相同，这在异构边缘设备环境中并不现实。EdgeVisor支持非均匀的静态张量并行，允许用户根据各设备的实际算力配置不同的负载比例。例如，可以通过`--ratios \"2:3:3\"`参数让三台设备按照2:3:3的比例分担推理负载，而不是平均分配。\n\n这种灵活性对于混合使用新旧设备、高低端GPU的场景尤为重要。一台配备RTX 4090的主力工作站可以与一台集成显卡的轻薄本协同工作，各自承担与其能力相匹配的计算任务。\n\n### UDS控制的动态迁移\n\nEdgeVisor引入了基于Unix Domain Socket的动态迁移机制，允许在推理过程中实时调整heads和FFN层的分布。通过`plan-uds-client.py`客户端，用户可以发送迁移指令，将特定层的计算任务从一台设备迁移到另一台。\n\n动态迁移支持三种模式：\n- `--kind 1`：仅迁移attention heads\n- `--kind 2`：仅迁移FFN层\n- `--kind 3`：同时迁移heads和FFN\n\n此外，系统还支持PP（Pipeline Parallelism）层级的迁移，允许将完整的transformer层在不同设备间移动。这种动态调度能力为负载均衡、故障恢复和资源弹性伸缩提供了基础。\n\n### GPU Vulkan后端支持\n\n项目实现了基于Vulkan的GPU后端，支持q80和q40量化格式的矩阵乘法运算。Vulkan作为跨平台图形API，相比CUDA具有更好的设备兼容性，能够支持更多消费级GPU。后端实现在线重分区后的输入宽度变化处理，确保动态迁移后的计算正确性。\n\n对于CPU推理，项目同样提供了优化的实现，支持Llama3 chat template，使用`[REMOVED_SPECIAL_TOKEN]`作为消息结束符。\n\n## 工程化目录结构\n\nEdgeVisor采用了清晰的工程化目录组织：\n\n- `EdgeVisor/`：核心C++/Vulkan推理引擎\n- `config/env.sh`：统一的环境变量配置\n- `scripts/semantic/`：CPU/GPU语义回归与分布式推理脚本\n- `scripts/gpu/`：GPU PP、补丁回归和调试脚本\n- `tests/semantic/`：六项benchmark回归测试\n- `docs/test_records/`：测试记录输出目录\n- `maintenance/`：历史补丁和调试配置归档\n- `artifacts/`：历史日志和实验结果归档\n\n这种结构将运行时脚本、测试代码、历史产物和维护文件清晰分离，便于长期维护和社区贡献。\n\n## 六项验收回归测试\n\n项目定义了完整的六项验收回归测试，覆盖各种运行模式：\n\n1. **CPU单机测试**：验证纯CPU推理的正确性和性能基线\n2. **GPU单机测试**：验证Vulkan GPU后端的正确性\n3. **CPU非均匀静态测试**：验证CPU集群的非均匀张量并行\n4. **GPU非均匀静态测试**：验证GPU集群的非均匀张量并行\n5. **CPU非均匀动态迁移测试**：验证CPU集群的动态heads迁移\n6. **GPU非均匀动态迁移测试**：验证GPU集群的动态heads迁移\n\n通过`run_six_benchmark_tests.sh`可以一键执行全部测试，生成包含实际输入、动态迁移UDS指令、token输出、预测token速率和Stage/Node性能剖析的完整测试记录。\n\n## 使用场景与意义\n\nEdgeVisor面向以下场景：\n\n**家庭AI实验室**：AI爱好者可以将家中多台设备组成推理集群，在本地运行开源大模型，无需依赖云服务或昂贵的专业硬件。\n\n**边缘计算原型**：研究人员可以基于EdgeVisor快速验证分布式边缘推理的可行性，探索异构设备协同的调度策略。\n\n**教育用途**：学生可以通过EdgeVisor学习分布式系统、GPU编程和大模型推理的实际工程实现。\n\n**低资源环境**：在网络受限或数据敏感的场景下，本地分布式推理提供了一种替代云端方案的务实选择。\n\n## 局限与未来方向\n\n当前版本主要作为实验工程存在，生产环境使用需要考虑以下因素：\n\n- **网络依赖**：分布式推理对节点间通信带宽和延迟敏感，WiFi环境下的性能可能不如有线网络\n- **量化支持**：目前主要支持q40和q80量化，对于需要全精度推理的场景需要额外适配\n- **模型兼容性**：基于Distributed Llama架构，主要支持Llama系列模型，其他架构需要移植工作\n\n未来可能的发展方向包括：更智能的动态负载均衡算法、基于网络状况的自适应分片策略、以及更完善的容错和故障恢复机制。\n\n## 总结\n\nEdgeVisor代表了边缘AI推理的一个重要探索方向：将分散的消费级设备聚合为统一的计算资源池。虽然在工程成熟度和生产适用性上还有提升空间，但其核心理念——让普通用户也能构建分布式AI基础设施——具有重要的民主化意义。对于希望深入理解分布式LLM推理原理，或希望在有限预算下体验集群推理的开发者来说，EdgeVisor提供了一个有价值的起点。