Zing 论坛

正文

Duplex:本地优先的多模型并行推理引擎

一款支持同时连接本地Ollama和多个云端大模型API的隐私优先型客户端应用,实现真正的并行推理与实时对比。

LLM多模型推理Ollama隐私优先ReactTypeScript开源工具AI开发
发布时间 2026/06/07 23:27最近活动 2026/06/07 23:52预计阅读 4 分钟
Duplex:本地优先的多模型并行推理引擎
1

章节 01

Duplex:本地优先的多模型并行推理引擎导读

2

章节 02

背景:为什么需要多模型并行推理?

在使用大语言模型时,开发者常面临两难:选择本地模型保护隐私,还是云端API获取更强性能?不同模型在特定任务(代码生成、逻辑推理、创意写作等)表现各异。传统流程需逐个测试模型输出,耗时且难以横向对比。Duplex的出现正是为解决这一痛点,让开发者可同时向多个模型发送相同提示词,在统一界面实时观察响应差异。

3

章节 03

项目概述:什么是Duplex?

Duplex是离线优先的多路复用大语言模型推理引擎,允许工程师、研究人员同时运行并行实时的提示词测试,支持本地托管模型(如Ollama、LM Studio、vLLM)与云端模型(如OpenAI、Anthropic、Gemini、Groq)并存。其核心理念为“隐私优先”:所有配置(模型选择、主题、布局)存储于浏览器localStorage,无后端服务,应用可离线运行,仅明确发送的云端请求会离开设备。

4

章节 04

核心功能与技术亮点

真正的多路复用推理

支持同时流式传输多达三个AI模型的推理结果,并排查看输出,助力模型选型、提示词工程和性能基准测试。

完全私有的本地状态

不依赖后端服务,所有配置存储于localStorage,保护隐私且支持离线运行。

跨平台兼容性

可连接本地实例(Ollama等)或云端提供商(通过API密钥),支持OpenAI标准格式的自定义端点(如Perplexity)。

实时诊断引擎

内置性能指标实时渲染,包括首令牌时间(TTFT)和吞吐量(TPS),量化评估模型响应速度。

模块化渲染布局

提供并排对比、响应式缩放、Markdown/简化渲染切换等视图模式,灵活适配需求。

5

章节 05

技术架构解析

Duplex采用现代前端技术栈构建:

组件 技术 用途
框架 React 18 + Vite 核心执行环境
语言 TypeScript 强类型逻辑层
样式 Tailwind CSS 响应式UI
路由 React Router DOM 客户端路由
动画 Motion (Framer Motion) 平滑视觉过渡
存储 LocalStorage 客户端持久化

选型体现对性能和体验的重视:Vite提供快速开发,TypeScript确保代码质量,Tailwind实现灵活样式,Framer Motion增添动画效果。

6

章节 06

使用场景与实践价值

模型选型与评估

为特定场景选择模型时,可通过一组提示词同时测试候选模型,对比输出质量、响应速度和成本,辅助决策。

提示词工程优化

即时查看同一提示词在不同模型的表现差异,针对性调整提示词结构,获得更一致优质的输出。

本地与云端混合部署

对比本地与云端模型表现,确定哪些任务可本地处理,哪些需调用云端API,兼顾隐私与能力。

教学与演示

并排对比视图适合教学,帮助学生理解模型特点;也可作为技术演示工具,向非技术人员展示AI多样性。

7

章节 07

部署与使用指南

Duplex针对Netlify边缘交付优化,部署步骤如下:

  1. 克隆仓库并安装依赖
  2. 运行npm run dev启动开发服务器
  3. 使用本地Ollama需配置OLLAMA_ORIGINS="*" ollama serve(解决跨域问题)
  4. 推送到GitHub并导入Netlify自动部署

项目文档强调配置跨域请求的重要性,体现对安全性的重视。

8

章节 08

总结与展望

Duplex代表AI工具发展的重要方向:在享受大模型能力的同时保持数据完全控制。其多模型并行推理能力提升开发效率,为模型评估提供科学依据。

随着本地模型(如Llama、Mistral)能力提升和云端API丰富,Duplex价值愈发凸显,让开发者无需在本地与云端间非此即彼,灵活组合调用。

对于关注AI应用开发、提示词工程或模型评估的技术人员,Duplex是值得探索和贡献的开源项目。