# Tenchi-MCP：基于MCP协议的云地混合LLM推理编排器

> Tenchi-MCP是一个开源的混合推理编排工具，通过Model Context Protocol (MCP)将云端大模型与本地Ollama模型无缝整合，实现智能任务分发、成本优化与数据隐私保护的平衡。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-19T05:40:49.000Z
- 最近活动: 2026-05-19T05:48:09.977Z
- 热度: 156.9
- 关键词: MCP, LLM, Ollama, 混合推理, 本地模型, 云端模型, Rust, 隐私保护, 成本优化, Claude Code, Gemini CLI
- 页面链接: https://www.zingnex.cn/forum/thread/tenchi-mcp-mcpllm
- Canonical: https://www.zingnex.cn/forum/thread/tenchi-mcp-mcpllm
- Markdown 来源: ingested_event

---

# Tenchi-MCP：基于MCP协议的云地混合LLM推理编排器

## 项目背景与核心问题

随着大语言模型（LLM）在开发 workflow 中的深度渗透，开发者面临一个两难困境：云端模型（如Gemini、Claude）虽然能力强大，但存在token成本高、数据隐私风险等问题；而本地模型（通过Ollama运行）虽然免费且数据安全，但推理速度受硬件限制，且缺乏与主流AI开发工具的标准化集成接口。

Tenchi-MCP（天地-MCP）正是为解决这一矛盾而诞生的开源项目。它基于Rust构建，通过Model Context Protocol (MCP)协议，将云端LLM与本地Ollama实例统一编排，实现"云地混合"的智能推理模式。

## 技术架构与核心机制

### Model Context Protocol (MCP) 协议

MCP是Anthropic推出的开放协议，旨在标准化AI模型与外部工具、数据源之间的交互方式。Tenchi-MCP作为MCP服务器，可以被任何支持MCP的客户端调用，包括Claude Code、Codex CLI、Gemini CLI以及Claude Desktop等主流开发工具。

这种设计带来的最大优势是**零侵入集成**——开发者无需修改现有workflow，只需将Tenchi-MCP添加为MCP服务器，即可立即获得本地模型推理能力。

### 混合推理的智能分发策略

Tenchi-MCP的核心创新在于其任务分发机制。系统通过`models_config.toml`配置文件，为每个本地模型定义详细的角色描述（role）和任务说明（description）。当云端代理（如Claude）接收到任务时，可以根据任务性质自主决定是否将部分或全部推理工作委托给本地模型。

例如，对于涉及敏感代码的审查任务，可以自动路由到本地运行的Qwen Coder模型；而对于需要广泛知识的一般性问答，则继续使用云端模型。这种分层策略既保证了数据安全，又避免了本地硬件在复杂任务上的性能瓶颈。

### 多模型角色化配置

配置文件支持定义多个本地模型，每个模型都有独立的角色定位：

- **Coder角色**：专门处理代码生成、逻辑实现任务，配置低temperature（0.2）以保证输出确定性
- **Expert角色**：处理需要深度推理的复杂问题，配置适中的temperature（0.7）平衡创造性与准确性
- **Lite角色**：面向简单任务和资源受限环境，配置较小的context窗口（8192 tokens）和VRAM节约模式

每个角色还可独立设置系统提示词（system prompt）、采样参数（top_p、top_k）、重复惩罚（repeat penalty）以及硬件资源分配（GPU层数、CPU线程数）。

## 实际应用场景与价值

### 隐私敏感开发场景

对于处理企业私有代码库、个人敏感数据的开发者，Tenchi-MCP提供了一种无需将数据上传到第三方云端的替代方案。所有本地推理数据仅在本地机器上处理，从根本上消除了数据泄露风险。

### 成本优化策略

通过将简单、重复性的任务（如代码格式化、基础语法检查、文档生成）委托给本地模型，可以显著降低云端API的调用频率和token消耗。根据项目文档的估算，合理使用混合策略可节省30%-60%的云端成本。

### 离线开发支持

在网络不稳定或无网络环境（如长途飞行、偏远地区）中，本地模型可作为fallback选项，确保开发工作不中断。Tenchi-MCP会自动检测本地模型的可用性，并在离线模式下无缝切换。

## 安装与配置实践

Tenchi-MCP采用Rust编写，支持跨平台编译（Windows、macOS、Linux）。安装方式灵活：

**Gemini CLI用户**可直接通过扩展机制安装，支持自动下载预编译二进制：
```
gemini extensions install https://github.com/DovahkiinYuzuko/Tenchi-MCP --ref v0.1.2
```

**Claude Code/Codex CLI用户**需手动克隆仓库并编译：
```
git clone https://github.com/DovahkiinYuzuko/Tenchi-MCP
cd Tenchi-MCP
cargo build --release
```

然后通过各客户端的MCP添加命令完成集成。

配置层面，`models_config.toml`采用分层结构设计：

1. **全局配置**：设置Ollama API地址、默认超时时间
2. **模型定义**：每个模型独立配置角色、优先级、描述和系统提示
3. **推理参数**：temperature、top_p、context长度等生成控制
4. **资源控制**：GPU卸载层数、CPU线程数、低VRAM模式等

## 局限性与注意事项

需要清醒认识的是，Tenchi-MCP并非万能方案。本地模型的推理速度高度依赖硬件配置——在消费级CPU上运行70B参数模型，单次推理可能需要数十秒甚至更长时间。项目文档明确提醒用户："与云端模型相比，响应时间可能显著延长"。

此外，当前版本主要在Windows 11环境下验证，macOS和Linux的支持虽然已在架构设计中考虑，但尚未经过实机测试。跨平台兼容性仍有待社区验证。

## 总结与展望

Tenchi-MCP代表了一种务实的LLM应用范式——不是盲目追求单一最优解，而是通过智能编排实现云地协同。它在MCP协议的标准化框架下，为开发者提供了灵活控制推理成本、保护数据隐私、保障离线可用性的实用工具。

随着本地模型能力的持续提升（如Llama 3、Qwen 2.5、Gemma等开源模型的迭代），以及MCP生态的日益成熟，这种混合推理模式有望成为AI辅助开发的主流方案之一。对于注重数据主权和成本控制的开发者而言，Tenchi-MCP提供了一个值得深入探索的解决方案。
