正文

混合智能体工作流：微软Agent框架下的SLM与LLM协同实践

该项目展示了如何使用微软Agent框架构建混合智能体工作流，通过五种协作模式实现本地小模型与云端大模型的优势互补，在延迟、隐私和成本之间取得平衡。

微软Agent框架混合智能体SLMLLM本地推理云端大模型任务分解AI架构成本优化

发布时间 2026/05/21 17:40最近活动 2026/05/21 17:50预计阅读 2 分钟

章节 01

混合智能体工作流：微软Agent框架下SLM与LLM协同实践（导读）

本文介绍微软Agent框架下的混合智能体工作流项目，旨在解决企业部署AI时面临的云端LLM成本高、延迟大、隐私风险与本地SLM能力有限的困境。项目通过5种协作模式实现SLM与LLM优势互补，平衡延迟、隐私和成本。

章节 02

项目背景与核心理念

企业部署AI时存在云端LLM（能力强但成本高、延迟大、隐私风险）与本地SLM（轻量高效但复杂任务表现有限）的矛盾。作者Filip W观察到开发者常忽视边缘计算价值，大量简单查询无需GPT-4级能力。项目基于微软Agent框架（跨Python/.NET），核心是"智能路由、分层处理"：简单任务由SLM处理，复杂任务升级到LLM，动态平衡性能、成本、隐私。

章节 03

协作模式详解（一）：SLM默认回退与预测性路由

项目实现5种学术验证的协作模式：

SLM默认、LLM回退：先由本地SLM（如Phi-4-mini-instruct）处理，结果置信度不足则升级到云端LLM，适合高频低复杂度场景（参考arXiv:2510.03847）。
预测性路由：通过轻量路由器模型分类任务为弱/强，直接路由到SLM/LLM，避免回退浪费，适合任务类型差异明显场景（参考arXiv:2406.18665）。

章节 04

协作模式详解（二）：MAKER、MINIONS与智能体链

其余3种模式： 3. MAKER协议：复杂任务由云端LLM分解为原子子任务，本地SLM集群并行执行并投票收敛，适合多步骤推理任务（参考arXiv:2511.09030）。 4. MINIONS协议：长文档切分为片段，本地模型并行提取信息，云端LLM汇总，保护隐私且高效（参考arXiv:2502.15964）。 5. 智能体链：串联本地SLM接力处理文档，累积上下文后由LLM综合，适合渐进式推理（参考arXiv:2406.02818）。

章节 05

技术实现与多平台支持

项目提供Python和.NET实现：

Python：支持MLX（Apple Silicon优化）和Foundry Local（跨平台）后端，通过环境变量切换。
.NET：支持Ollama（本地）、OpenAI兼容接口、Azure AI Foundry（云端），SLM/LLM可独立配置后端。配置方面：短模型别名简化跨平台设置，敏感信息通过环境变量管理，避免泄露。

章节 06

实际应用价值与最佳实践

项目价值：

开发者：提供可直接应用的架构模板（如企业知识库组合预测性路由与MINIONS）。
架构师：展示学术成果转化为工程实践，每个模式标注论文供深入理解。
产品经理：提供成本-性能权衡案例，量化评估延迟、成本、准确率以支撑选型。

章节 07

未来展望与社区贡献

项目将持续跟进微软Agent框架最新版本（当前基于RC4）。社区可通过GitHub提交Issue/PR贡献新模式或改进实现。随着端侧AI芯片发展和SLM能力提升，混合智能体架构将成企业AI应用主流，项目为该趋势提供先行实践。

混合智能体工作流：微软Agent框架下的SLM与LLM协同实践

混合智能体工作流：微软Agent框架下SLM与LLM协同实践（导读）

项目背景与核心理念

协作模式详解（一）：SLM默认回退与预测性路由

协作模式详解（二）：MAKER、MINIONS与智能体链

技术实现与多平台支持

实际应用价值与最佳实践

未来展望与社区贡献

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

Next.js 应用的 SEO 与 GEO 一体化优化方案：从搜索引擎到 AI 助手的全面可见性

百原GEO Platform技术白皮书：生成式引擎优化（GEO）的SaaS工程实践