正文

Duplex：本地优先的多模型并行推理引擎

一款支持同时连接本地Ollama和多个云端大模型API的隐私优先型客户端应用，实现真正的并行推理与实时对比。

LLM多模型推理Ollama隐私优先ReactTypeScript开源工具AI开发

发布时间 2026/06/07 23:27最近活动 2026/06/07 23:52预计阅读 4 分钟

章节 01

Duplex：本地优先的多模型并行推理引擎导读

Duplex是一款本地优先的多模型并行推理引擎，支持同时连接本地Ollama和多个云端大模型API，实现真正的并行推理与实时对比。该项目由Ryuk1811开发维护，开源于GitHub（链接：https://github.com/Ryuk1811/Duplex），采用MIT许可证。其核心理念是隐私优先——所有应用状态通过localStorage本地持久化，无外部数据库或遥测追踪，用户对话数据完全保留在本地。Duplex解决了开发者在本地模型隐私与云端模型性能之间的两难选择，以及传统逐个测试模型耗时的痛点，为模型选型、提示词工程等场景提供高效工具。

章节 02

背景：为什么需要多模型并行推理？

在使用大语言模型时，开发者常面临两难：选择本地模型保护隐私，还是云端API获取更强性能？不同模型在特定任务（代码生成、逻辑推理、创意写作等）表现各异。传统流程需逐个测试模型输出，耗时且难以横向对比。Duplex的出现正是为解决这一痛点，让开发者可同时向多个模型发送相同提示词，在统一界面实时观察响应差异。

章节 03

项目概述：什么是Duplex？

Duplex是离线优先的多路复用大语言模型推理引擎，允许工程师、研究人员同时运行并行实时的提示词测试，支持本地托管模型（如Ollama、LM Studio、vLLM）与云端模型（如OpenAI、Anthropic、Gemini、Groq）并存。其核心理念为“隐私优先”：所有配置（模型选择、主题、布局）存储于浏览器localStorage，无后端服务，应用可离线运行，仅明确发送的云端请求会离开设备。

章节 04

核心功能与技术亮点

真正的多路复用推理

支持同时流式传输多达三个AI模型的推理结果，并排查看输出，助力模型选型、提示词工程和性能基准测试。

完全私有的本地状态

不依赖后端服务，所有配置存储于localStorage，保护隐私且支持离线运行。

跨平台兼容性

可连接本地实例（Ollama等）或云端提供商（通过API密钥），支持OpenAI标准格式的自定义端点（如Perplexity）。

实时诊断引擎

内置性能指标实时渲染，包括首令牌时间（TTFT）和吞吐量（TPS），量化评估模型响应速度。

模块化渲染布局

提供并排对比、响应式缩放、Markdown/简化渲染切换等视图模式，灵活适配需求。

章节 05

技术架构解析

Duplex采用现代前端技术栈构建：

组件	技术	用途
框架	React 18 + Vite	核心执行环境
语言	TypeScript	强类型逻辑层
样式	Tailwind CSS	响应式UI
路由	React Router DOM	客户端路由
动画	Motion (Framer Motion)	平滑视觉过渡
存储	LocalStorage	客户端持久化

选型体现对性能和体验的重视：Vite提供快速开发，TypeScript确保代码质量，Tailwind实现灵活样式，Framer Motion增添动画效果。

章节 06

使用场景与实践价值

模型选型与评估

为特定场景选择模型时，可通过一组提示词同时测试候选模型，对比输出质量、响应速度和成本，辅助决策。

提示词工程优化

即时查看同一提示词在不同模型的表现差异，针对性调整提示词结构，获得更一致优质的输出。

本地与云端混合部署

对比本地与云端模型表现，确定哪些任务可本地处理，哪些需调用云端API，兼顾隐私与能力。

教学与演示

并排对比视图适合教学，帮助学生理解模型特点；也可作为技术演示工具，向非技术人员展示AI多样性。

章节 07

部署与使用指南

Duplex针对Netlify边缘交付优化，部署步骤如下：

克隆仓库并安装依赖
运行npm run dev启动开发服务器
使用本地Ollama需配置OLLAMA_ORIGINS="*" ollama serve（解决跨域问题）
推送到GitHub并导入Netlify自动部署

项目文档强调配置跨域请求的重要性，体现对安全性的重视。

章节 08

总结与展望

Duplex代表AI工具发展的重要方向：在享受大模型能力的同时保持数据完全控制。其多模型并行推理能力提升开发效率，为模型评估提供科学依据。

随着本地模型（如Llama、Mistral）能力提升和云端API丰富，Duplex价值愈发凸显，让开发者无需在本地与云端间非此即彼，灵活组合调用。

对于关注AI应用开发、提示词工程或模型评估的技术人员，Duplex是值得探索和贡献的开源项目。