正文

Voxen：可自托管的RAG客服机器人平台

Voxen是一个基于大语言模型的可自托管客服机器人平台，支持从知识库构建检索增强型Agent，并通过单行脚本嵌入到任何网站。

RAG客服机器人自托管FastAPIQdrantOllamaGemini知识库向量检索

发布时间 2026/05/28 04:15最近活动 2026/05/28 04:21预计阅读 2 分钟

章节 01

Voxen：可自托管的RAG客服机器人平台核心导读

Voxen是基于大语言模型的可自托管客服机器人平台，核心是通过检索增强生成（RAG）技术构建智能Agent，支持从知识库生成特定领域问答，并通过单行脚本嵌入任意网站。其关键优势包括完全的数据控制权（敏感文档本地存储）、多模块功能架构，以及支持Ollama（本地开源模型）和Gemini（云端模型）等技术栈。

章节 02

Voxen的背景与解决的问题

传统SaaS客服解决方案存在数据控制权缺失的问题，而Voxen的自托管模式解决了这一痛点——企业可将敏感文档保存在本地基础设施，同时利用大语言模型能力提供智能问答服务，特别适合对数据隐私有严格要求的企业场景。

章节 03

Voxen的核心功能模块

提示词管理系统：支持可复用的系统提示词模板，定义Agent的行为风格、回答格式和知识边界（如技术支持/销售咨询场景）；
知识库与RAG检索：支持PDF、DOCX、网页URL等多种格式导入，自动分块、向量化（使用nomic-embed-text生成768维向量）并存储于Qdrant向量数据库，确保语义检索准确性；
Agent构建与API密钥：绑定提示词与知识库创建Agent，每个Agent有独立API密钥（vxn_...），支持多租户场景；
嵌入式聊天组件：一行脚本即可在网页添加浮动聊天按钮，点击加载iframe聊天界面，无需复杂集成。

章节 04

Voxen的技术栈解析

后端：基于FastAPI框架，使用SQLAlchemy异步操作PostgreSQL数据库，向量存储采用Qdrant（专为高维向量搜索优化）； LLM支持：兼容Ollama（本地部署开源模型如Gemma3）和Google Gemini（云端模型），切换只需修改环境变量；前端：React 19 + Vite构建，Tailwind CSS v4样式设计，确保开发体验与运行性能。

章节 05

Voxen的部署与配置方式

本地开发：需Python3.11+、PostgreSQL，若用Ollama需本地运行服务并拉取模型； Docker部署：提供开发（docker-compose.yml，热重载）和生产（docker-compose.prod.yml，gunicorn+nginx）两种Compose配置，Ollama服务可选（通过profile控制）； 环境变量：所有配置通过.env文件管理，包括数据库连接URL、LLM提供商、模型名称等，便于跨环境迁移。

章节 06