# Prometeu：在2011年的老旧硬件上运行分布式大语言模型推理

> 一个将llama.cpp RPC分布式推理部署在2011年Sandy Bridge处理器上的开源项目，展示了如何在无GPU的旧硬件上通过多节点协作实现LLM推理，并提供了公开可访问的在线演示。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-16T11:13:22.000Z
- 最近活动: 2026-06-16T11:18:38.908Z
- 热度: 154.9
- 关键词: llama.cpp, 分布式推理, RPC, 边缘计算, 老旧硬件, Sandy Bridge, Qwen, 开源AI, CPU推理, 模型量化
- 页面链接: https://www.zingnex.cn/forum/thread/prometeu-2011
- Canonical: https://www.zingnex.cn/forum/thread/prometeu-2011
- Markdown 来源: ingested_event

---

# Prometeu：在2011年的老旧硬件上运行分布式大语言模型推理

## 原作者与来源

- **原作者/维护者**: maxwellmelo
- **来源平台**: GitHub
- **原始标题**: prometeu
- **原始链接**: https://github.com/maxwellmelo/prometeu
- **发布/更新时间**: 2026年6月16日

## 项目概述

Prometeu是一个令人印象深刻的开源项目，它证明了即使在最普通的硬件上也能运行分布式大语言模型推理。该项目由开发者maxwellmelo创建，核心目标是在2011年发布的Intel Sandy Bridge架构处理器上，通过llama.cpp的RPC后端实现多节点协作推理。

这个项目的独特之处在于它完全摒弃了对现代GPU的依赖，转而使用已有十余年历史的消费级硬件。项目中的主服务器是一台配备Intel i7-2620M处理器（2011年发布）、仅有8GB内存、无独立显卡的旧笔记本电脑。这台机器甚至不支持AVX2、BMI2、FMA或F16C等现代指令集，但Prometeu成功在其上运行了Qwen 2.5 1.5B量化模型，并达到了约9个token每秒的推理速度。

## 技术架构解析

Prometeu的技术栈设计体现了分布式系统与边缘计算的巧妙结合。整个系统由三个核心组件构成：一个主节点（master）和两个工作节点（worker），全部运行在同一台物理机器的Linux容器中。

主节点运行llama-server，负责提供OpenAI兼容的HTTP API接口，加载模型权重，并协调RPC通信。两个工作节点分别运行rpc-server，各自承载模型张量图的一部分，按需执行计算任务。这种架构允许将单个模型的计算负载分散到多个进程，从而在内存受限的环境中运行更大的模型。

为了提供公网访问，项目使用Cloudflare Tunnel建立安全的HTTPS隧道，无需开放防火墙端口。FastAPI网关作为薄层代理，处理API请求转发、集群遥测数据采集和网格节点发现等功能。前端采用原生HTML/JavaScript实现，支持SSE流式输出和实时节点状态显示。

## 老旧硬件的编译挑战

Prometeu项目中最具技术深度的部分在于解决老旧CPU的兼容性问题。Sandy Bridge架构虽然支持AVX指令集，但缺乏AVX2、BMI2、FMA和F16C等后续扩展。这导致了一个棘手的编译问题：即使显式禁用AVX2，GCC编译器在-march=native模式下仍可能生成BMI2指令（如shlx），导致程序运行时触发SIGILL非法指令错误。

项目作者通过双重保险策略解决了这一问题。首先，在CMake配置中显式关闭不支持的指令集选项；其次，在编译器标志中强制添加-mno-bmi、-mno-bmi2、-mno-avx2、-mno-fma、-mno-f16c等禁用参数，并将目标架构锁定为-march=sandybridge。这种belt-and-suspenders方法确保了生成的二进制文件可以在任何Sandy Bridge或Ivy Bridge处理器上稳定运行。

## 性能表现与实测数据

根据项目提供的基准测试数据，Prometeu在局域网环境下的三节点配置可以达到约9.18 token每秒的推理速度，通过公网HTTPS访问时略有下降，约为6.7 token每秒。首token延迟在缓存预热状态下约为0.5秒，冷启动（系统重启后）则需要30至90秒完成模型加载。

与现代化GPU相比，这些数字并不出众——单张现代显卡在相同模型上可以轻松达到100 token每秒以上。但Prometeu的价值不在于速度竞争，而在于成本效益和可及性。它证明了被大多数人视为电子垃圾的旧硬件仍然可以承担有意义的AI计算任务，为资源受限场景提供了可行的替代方案。

## 部署与使用指南

项目提供了完整的部署文档，支持用户在自己的硬件上复现这一架构。部署要求包括：一台运行Debian/Ubuntu的Linux主机作为主节点，一台或多台同架构主机作为工作节点，以及一个GGUF格式的量化模型文件。

安装过程涉及从源码编译llama.cpp，需要特别注意启用RPC支持并正确配置编译器标志以匹配目标硬件的指令集能力。项目仓库中包含完整的构建脚本，简化了这一复杂过程。对于希望快速体验的用户，项目还提供了在线演示地址prometeu.mx3dev.com，可以直接与运行在老旧硬件上的模型进行交互。

## 技术意义与启发

Prometeu项目的意义超越了其技术实现本身。它向开发者社区传递了一个重要信息：AI推理并非必须依赖昂贵的专用硬件。通过巧妙的软件架构设计和分布式计算技术，即使是过时的消费级设备也能参与到大语言模型的服务中。

这一理念对于边缘计算、物联网设备集成、以及发展中国家和地区的AI普及具有重要参考价值。它也为电子垃圾的再利用提供了新的思路——那些因性能不足而被淘汰的旧设备，或许仍能在AI推理领域找到新的生命。

## 总结

Prometeu是一个充满创意的开源项目，它成功地将llama.cpp的分布式RPC功能应用于极端受限的硬件环境。通过解决老旧CPU的指令集兼容性难题，项目展示了在资源受限场景下运行大语言模型的可行性。虽然性能无法与现代GPU方案相提并论，但其零成本、高可及性的特点使其成为教育、实验和边缘部署的理想选择。对于希望探索AI推理极限边界的开发者来说，Prometeu提供了一个极具启发性的参考实现。
