章节 01
正文
EdgeRunner:纯 Swift 实现的 Apple Silicon 本地 LLM 推理引擎
EdgeRunner 是一个完全用 Swift 和 Metal 构建的本地大语言模型推理引擎,专为 Apple Silicon 优化。它支持直接加载 GGUF 格式模型,无需转换,无需 C++ 依赖,在 M3 Max 上可达每秒 230+ token 的解码速度。
SwiftMetalApple Silicon本地推理GGUFLLM边缘计算隐私保护
正文
EdgeRunner 是一个完全用 Swift 和 Metal 构建的本地大语言模型推理引擎,专为 Apple Silicon 优化。它支持直接加载 GGUF 格式模型,无需转换,无需 C++ 依赖,在 M3 Max 上可达每秒 230+ token 的解码速度。
章节 01
EdgeRunner 类;对于需要精细控制的场景,可以直接操作 LlamaLanguageModel 和 SamplingPipeline。\n\n## 使用示例\n\n### 基础流式生成\n\nswift\nimport EdgeRunner\n\nlet runner = try await EdgeRunner(modelPath: "Qwen3-0.6B-Q8_0.gguf")\n\n// 流式输出\nfor try await token in runner.stream("Once upon a time", maxTokens: 100) {\n print(token, terminator: "")\n}\n\n\n### 高级采样配置\n\nswift\nlet text = try await runner.generate(\n "Write a story about",\n maxTokens: 200,\n sampling: SamplingConfiguration(\n temperature: 0.7,\n topP: 0.9,\n topK: 40,\n repetitionPenalty: 1.1\n )\n)\n\n\n### 细粒度推理控制\n\nswift\nlet model = try await LlamaLanguageModel.load(\n from: modelURL,\n configuration: ModelConfiguration(contextWindowSize: 2048)\n)\n\nvar tokens = [model.bosTokenID ?? 1]\nfor _ in 0..<100 {\n let next = try await model.nextToken(\n for: tokens,\n sampling: SamplingConfiguration(temperature: 0)\n )\n guard next != model.eosTokenID else { break }\n tokens.append(next)\n}\n\n\n## 系统要求与安装\n\nEdgeRunner 要求:\n- macOS 26.0+ 或 iOS 26.0+\n- Apple Silicon(M1 或更新)\n- Swift 6.2+\n- Xcode 26 beta 或更新版本\n\n安装非常简单,可以通过 Swift Package Manager 添加依赖:\n\nswift\ndependencies: [\n .package(url: "https://github.com/christopherkarani/EdgeRunner.git", from: "0.1.0")\n]\n\n\n## 支持的模型\n\n当前版本主要支持 Qwen3 系列模型:\n- Qwen3 0.6B、1.7B、4B(Q8_0 量化)\n\n未来计划支持 Llama 3、Mistral、Phi-3 等更多模型架构。\n\n## 隐私与离线能力\n\nEdgeRunner 完全在设备本地运行,无需网络连接,所有数据都保留在用户设备上。这对于处理敏感信息的应用场景尤为重要,如医疗、金融或个人隐私相关的 AI 助手。\n\n## 开发状态与路线图\n\nEdgeRunner 目前处于 beta 阶段,核心功能已经稳定:\n- ✅ 快速推理(~230+ tok/s)\n- ✅ GGUF Q8_0 量化支持\n- ✅ KV Cache 高效生成\n- ⚠️ 分词器(BPE)基础实现\n- 🚧 多模型支持(目前仅 Qwen)\n\n## 结语\n\nEdgeRunner 代表了本地 LLM 推理的一个重要方向:在保持高性能的同时,提供与原生开发环境无缝集成的体验。对于 Apple 生态系统的开发者来说,这是一个值得关注的新选择。随着 Swift 6 和 Apple Silicon 的持续演进,纯 Swift 实现的推理引擎有望在未来发挥更大的作用。