# Harpyx：企业级私有化RAG文档智能平台

> Harpyx是一个多租户、可自托管的检索增强生成（RAG）平台，专为企业私有文档库设计。它支持病毒扫描、多提供商LLM集成、项目级对话隔离，以及完整的审计日志和安全控制。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-22T00:11:51.000Z
- 最近活动: 2026-04-22T00:19:24.726Z
- 热度: 0.0
- 关键词: RAG, 文档智能, 私有化部署, 多租户, 企业级, 向量检索, LLM, OCR, 开源
- 页面链接: https://www.zingnex.cn/forum/thread/harpyx-rag
- Canonical: https://www.zingnex.cn/forum/thread/harpyx-rag
- Markdown 来源: ingested_event

---

# Harpyx：企业级私有化RAG文档智能平台

## 背景与痛点

当前市面上的RAG（检索增强生成）产品普遍存在三个核心问题：第一，锁定在特定大模型供应商，缺乏灵活性；第二，要求将文档上传至第三方云服务，数据隐私难以保障；第三，多为单租户玩具项目，无法适应真实企业的组织架构和权限管理需求。Harpyx正是为解决这些问题而生。

## 项目概述

Harpyx是一个多租户、可自托管的文档智能平台，基于.NET 10构建，采用双服务架构（Web前端 + Worker后台），通过Docker Compose编排部署。它允许组织上传私有文档，将其索引为可搜索的向量嵌入，并通过用户自选的大语言模型进行对话交互。

## 核心功能详解

### 文档摄取与处理

Harpyx的文档摄取流程非常完整：上传文件首先经过病毒扫描，然后存储在对象存储中，并排队等待异步解析。系统支持多种容器格式（ZIP、RAR、7z、tar.gz、MSG、EML）的解压，以及PDF、Office文档、RTF、EPUB、HTML、纯文本、图片（OCR识别）和结构化文件（CSV、JSON、XML、YAML）的提取、分块和嵌入。

### 多提供商RAG架构

平台支持按用户配置API密钥，兼容OpenAI、Anthropic Claude和Google Gemini。所有密钥在静态存储时均使用AES-256-GCM加密。聊天、嵌入和OCR模型可以在工作区或项目级别独立覆盖，提供极大的灵活性。

### 项目级对话隔离

Harpyx采用四层组织架构：平台级租户将用户分组为工作区；工作区包含多个项目；每个项目包含文档、提示词和基于自有文档的聊天会话。这种设计确保了数据的严格隔离，同时支持跨项目协作。

### 多租户与角色体系

平台级角色包括Admin、Operator、Reviewer和ReadOnly；租户成员拥有独立的角色模型。用户访问采用白名单控制，所有操作均可审计。

### 自托管使用配额

Harpyx提供实例级别的配额管理，可限制租户、工作区、项目、文档、存储、API、OCR和RAG使用量，无需商业 tier 即可实现资源管控。

### 生产级基础设施

系统包含健康检查、OpenTelemetry追踪指标、Serilog结构化日志、转发头和速率限制策略、CSRF保护、ClamAV上传扫描，以及可审计的安全事件。

## 技术栈

- **后端**：ASP.NET Core 10、EF Core 9（SQL Server）
- **前端**：Razor Pages + Tailwind/DaisyUI
- **身份认证**：Microsoft.Identity.Web（Entra ID）、Google OAuth
- **存储**：MinIO、RabbitMQ、Redis、OpenSearch
- **安全**：ClamAV、OpenTelemetry、Serilog、Testcontainers

## 部署方式

```bash
cp .env.example .env  # 填写密钥
docker compose up --build
```

Web应用暴露在`http://localhost:8080`，健康检查端点为`/health/live`和`/health/ready`。

## 适用场景

Harpyx特别适合以下场景：
- 金融、法律、医疗等对数据隐私要求极高的行业
- 需要处理大量历史文档并进行智能检索的企业
- 希望在私有环境中使用多模型能力（OpenAI、Claude、Gemini）的组织
- 需要严格审计和合规要求的机构

## 总结

Harpyx填补了市场上企业级私有化RAG平台的空白。它不仅提供了完整的文档智能处理能力，更通过多租户架构、细粒度权限控制和生产级安全特性，使其能够真正部署在生产环境中。对于希望拥抱AI能力又不愿牺牲数据主权的企业来说，Harpyx是一个值得深入评估的开源方案。
