章节 01
导读 / 主楼:Server Nexe:本地化AI服务器的完整解决方案
Server Nexe 是一个完全本地运行的 AI 服务器,具备持久化记忆、RAG 检索和多后端推理能力,让用户的对话、文档和模型权重完全保留在本地设备上。
正文
Server Nexe 是一个完全本地运行的 AI 服务器,具备持久化记忆、RAG 检索和多后端推理能力,让用户的对话、文档和模型权重完全保留在本地设备上。
章节 01
Server Nexe 是一个完全本地运行的 AI 服务器,具备持久化记忆、RAG 检索和多后端推理能力,让用户的对话、文档和模型权重完全保留在本地设备上。
章节 02
Server Nexe 始于一个简单而深刻的问题:"拥有一台具备持久记忆的本地 AI 需要什么?" 由于作者不打算从头构建 LLM,于是开始收集各种组件,组装一个对自己日常工作有用的工具。
这个项目的独特之处在于其开发方式——整个项目(代码、测试、审计、文档)由一个人 orchestrating 不同的 AI 模型共同完成,包括本地模型(MLX、Ollama)和云端模型(Claude、GPT、Gemini、DeepSeek、Qwen、Grok)。人类负责决定构建什么、设计架构、审查代码和运行测试,而 AI 则在人类指导下编写、审计和压力测试。
从最初的实验性原型,项目逐渐演变为一个真正有用的产品:4842 个测试(约 85% 覆盖率)、安全审计、静态加密、带硬件检测的 macOS 安装程序,以及插件系统。
章节 03
这是 Server Nexe 最突出的特点。所有对话、文档、嵌入向量和模型权重都保留在用户的机器上。没有遥测数据,没有外部调用,没有云依赖——甚至连用于监控的服务器都没有。
章节 04
Server Nexe 使用 Qdrant 向量搜索,配合 768 维嵌入向量,在 3 个专门的集合中存储记忆。系统能够:
章节 05
用户可以在三种推理后端之间自由切换,只需修改配置文件:
| 后端 | 平台 | 最佳适用场景 |
|---|---|---|
| MLX | macOS (Apple Silicon) | Mac 推荐——原生 Metal GPU 加速,M 系列芯片上最快 |
| llama.cpp | macOS / Linux | 通用——GGUF 格式,Mac 上支持 Metal,Linux 上支持 CPU/CUDA |
| Ollama | macOS / Linux | 桥接现有 Ollama 安装,最简单的模型管理 |
章节 06
安装程序根据机器可用 RAM 自动组织 16 个目录模型,分为 4 个层级:
此外,用户还可以按名称使用任何 Ollama 模型,或从 Hugging Face 使用任何 GGUF 模型。
章节 07
Server Nexe 采用自动发现的插件架构,安全、Web UI、RAG、后端——一切都是插件。通过 NexeModule 协议和 duck typing(无需继承),用户可以在不触碰核心代码的情况下添加功能。
章节 08
用户可以上传 .txt、.md 或 .pdf 文件,系统会自动为 RAG 建立索引。每个文档仅在它被上传的会话中可见——会话之间不会交叉污染。