正文

InferHub：基于.NET的自托管LLM推理网格系统

本文介绍InferHub，一个使用.NET构建的自托管大语言模型推理网格系统，通过Ollama兼容API前端和GPU工作节点池，实现灵活的分布式推理部署。

LLM推理分布式系统OllamaGPU集群负载均衡自托管微服务架构API网关

发布时间 2026/06/12 05:44最近活动 2026/06/12 05:51预计阅读 2 分钟

章节 01

InferHub：基于.NET的自托管LLM推理网格系统导读

InferHub是Dev-Art-Solutions开发的自托管LLM推理网格系统，基于.NET构建，通过Ollama兼容API网关与GPU工作节点池解耦，实现分布式推理部署。核心解决传统LLM部署中推理服务与GPU资源耦合的问题，提供资源灵活复用、成本优化等优势，支持自托管与混合部署场景。

章节 02

项目背景与核心概念

传统LLM部署存在推理服务与GPU资源紧密耦合的问题，导致无GPU环境需远程调用带来延迟和复杂性。InferHub采用网格化架构，将API网关层与推理计算层解耦，实现资源灵活部署：网关用廉价CPU服务器，推理层用GPU；支持Ollama兼容API，无缝集成现有Ollama生态，用户无需修改客户端代码即可迁移。

章节 03

架构设计与工作原理

InferHub采用三层架构：1. API网关层（Hub）：接收请求、路由、负载均衡、故障转移，无状态可水平扩展；2.推理节点层（Nodes）：运行Ollama的GPU服务器，向网关注册并报告状态；3.后端适配层：可插拔设计，目前支持Ollama，未来可扩展vLLM等。工作流程：客户端发送Ollama兼容请求→网关选最优节点→转发请求→返回结果，过程对客户端透明。

章节 04

技术选型：为何选择.NET

InferHub选择.NET的原因：1.性能与效率：异步编程（async/await）高效管理并发连接；2.生态系统：丰富企业级库与成熟工具链，适合长期维护；3.跨平台支持：可在Linux、Windows、macOS运行，部署灵活。

章节 05

应用场景与核心优势

应用场景包括：多租户推理服务（共享GPU池提升ROI）、混合云部署（私有GPU节点+公有网关）、边缘推理（边缘网关+中心GPU集群）、开发测试（本地网关连接共享GPU）。核心优势：自托管优先（数据隐私与成本控制）、渐进式采用（Ollama兼容无需重写代码）、可插拔架构（未来支持更多后端）。

章节 06

部署关键考量点

部署需注意：1.网络：网关与节点需稳定低延迟连接，跨地域需优化；2.安全性：节点认证、TLS加密、API密钥/JWT认证、访问控制与审计；3.监控：GPU利用率/显存、请求延迟/成功率、节点健康与故障转移次数。

章节 07

与同类项目的对比

InferHub与同类项目的关系：1.与Ollama：非替代，是增强层，将单Ollama实例变为分布式系统；2.与vLLM：vLLM专注单节点高性能，InferHub专注多节点协调，可互补；3.与OpenRouter：OpenRouter是托管式多模型服务，InferHub是自托管方案，前者适合原型，后者适合生产。

章节 08