# Fortemi：Rust构建的私有化AI知识库，让数据真正"理解"内容

> Fortemi是一款基于Rust和PostgreSQL构建的自托管AI知识库，通过混合语义搜索、自动知识图谱、多模态内容提取和MCP协议支持，实现了对文档、图像、音频、视频等多种内容的深度理解和智能关联。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-17T19:15:34.000Z
- 最近活动: 2026-05-17T19:19:50.861Z
- 热度: 163.9
- 关键词: AI知识库, 语义搜索, 知识图谱, 多模态处理, MCP协议, Rust, PostgreSQL, 私有化部署, RAG, Fortemi
- 页面链接: https://www.zingnex.cn/forum/thread/fortemi-rustai
- Canonical: https://www.zingnex.cn/forum/thread/fortemi-rustai
- Markdown 来源: ingested_event

---

## 知识管理的痛点：从存储到理解的鸿沟

在信息爆炸的时代，个人和团队积累了海量的文档、笔记、邮件、会议录音和各种媒体文件。传统的知识管理系统往往只是简单的存储仓库——它们保存了你的数据，但并不能真正"理解"其中的内容。当你搜索"如何用AI从文档中回答问题"时，如果笔记中使用的是"检索增强生成"这个术语，传统搜索就会一无所获。

这种"关键词匹配"式的搜索方式，要求用户必须准确记得自己当初是如何表述的。而人类记忆往往是模糊的概念性记忆，我们记得"大概说了什么"，却不记得"具体用了哪些词"。

Fortemi正是为解决这一根本性问题而诞生的。

## Fortemi是什么

Fortemi（发音：for-TAY-mee）是一个自托管的AI知识库系统，其核心理念是"Memory that understands"——能够理解你所存储内容的意义。它不仅能保存你的笔记和文件，还能理解笔记背后的含义、发现概念之间的关系、并建立连接它们的上下文。

该项目由Rust语言编写（约16万行代码），后端使用PostgreSQL数据库，并提供了Node.js实现的MCP（Model Context Protocol）服务器。整个系统可以在仅有8GB显存的消费级GPU上运行，完全私有化部署，无需依赖任何云服务。

## 核心能力：超越关键词的智能检索

### 混合语义搜索：BM25 + 向量相似度 + RRF融合

Fortemi的搜索系统是其最突出的特性之一。它结合了三种检索技术：

1. **BM25全文搜索**：传统基于词频的文本检索，适合精确匹配
2. **稠密向量相似度**：基于嵌入向量的语义搜索，能够理解概念相关性
3. **RRF（Reciprocal Rank Fusion）融合**：将多种检索结果智能融合，取长补短

这种混合方法意味着，即使用户搜索"用AI回答文档问题"，系统也能找到关于"检索增强生成（RAG）"的相关笔记，因为语义搜索理解这两个表述指的是同一概念。系统还支持多语言（包括中文、日文、韩文等CJK语言）和emoji的语义理解。

### 自动知识图谱：让隐藏的关系浮现

当知识库中的笔记越来越多，概念之间的潜在关联也随之增加。Fortemi通过以下技术自动构建和维护知识图谱：

- **语义自动链接**：当两段内容的嵌入相似度超过70%时，自动建立连接
- **SNN（Shared Nearest Neighbor）相似度评分**：识别真正相关的概念对
- **PFNET（Pathfinder Network）稀疏化**：去除冗余连接，保留最关键的关系
- **Louvain社区检测**：自动发现概念群组，形成知识结构
- **W3C SKOS标准**：使用标准词汇表进行层次化的概念组织

这意味着知识图谱会随着内容的增加而"有机生长"，你不需要手动标记标签或创建链接，系统会自动发现"这篇关于Transformer的论文"和"那篇关于注意力机制的博客"之间的关联。

## 多模态内容处理：打破媒体类型的壁垒

传统知识库往往只能处理文本，而Fortemi内置了13种内容提取适配器，能够将各种媒体文件转化为可搜索的知识：

### 视觉内容
- 图像：使用视觉模型生成描述和提取文本（OCR）
- 视频：关键帧提取、场景检测、转录文本对齐
- 3D模型：多视角渲染后生成视觉描述

### 音频内容
- 语音转录：基于Whisper的语音识别
- 说话人分离：使用pyannote区分不同说话人

### 文档与邮件
- 邮件解析：支持RFC 2822/MIME标准
- 电子表格：xlsx/xls/ods格式解析
- 压缩包：ZIP/tar/gz自动解压和索引

所有提取的内容都会生成派生附件（缩略图、转录文本、字幕文件、精灵图等），使原本"黑暗"的媒体文件变成完全可搜索的知识资产。

## 内容感知处理：不同文档，不同策略

Fortemi支持131种文档类型的自动检测，并为每种类型制定专门的处理策略：

- **代码文件**：使用语法感知的分块策略，保留函数、类的完整性
- **散文文本**：使用语义分块，在保持上下文连贯的前提下切分
- **会议纪要**：自动提取"决策"和"行动项"部分
- **研究论文**：重点关注"方法论"和"研究发现"

这种内容感知的处理方式，确保了不同类型的文档都能得到最适合的索引和分析。

## MCP协议支持：AI代理的知识中枢

Fortemi实现了Model Context Protocol（MCP）服务器，提供43种工具供AI代理调用。这意味着你的AI助手可以：

- 搜索你的知识库获取上下文
- 创建新笔记并自动建立关联
- 查询知识图谱发现相关概念
- 上传和处理多媒体内容
- 进行多轮对话并维护历史记录

通过MCP协议，Fortemi成为AI代理工作流的中心知识枢纽，让AI助手真正"了解"你的个人或团队知识。

## 灵活的LLM推理支持

Fortemi不绑定特定的AI模型，支持多种推理后端：

- **Ollama**：本地开源模型（默认推荐）
- **OpenAI**：GPT系列模型
- **OpenRouter**：统一接口访问多种模型
- **llama.cpp**：极致本地推理

系统支持热切换配置，无需重启即可更换模型。同时还实现了GPU并发控制，确保多用户场景下的资源合理分配。

## 部署与使用

Fortemi提供两种主要使用方式：

### 方式一：HotM桌面应用（推荐个人用户）

HotM是Fortemi的官方桌面客户端，集成了编辑器和Fortemi API，支持Linux、macOS和Windows。用户只需下载安装包，无需配置Docker或PostgreSQL即可使用。

### 方式二：Docker自托管（推荐团队/开发者）

对于需要多用户部署、AI代理集成或气隙环境（air-gapped）的场景，可以使用Docker部署：

```bash
# 创建配置
echo 'COMPOSE_PROFILES=edge' > .env  # 6-8GB显存
# echo 'COMPOSE_PROFILES=gpu-12gb' > .env  # 12-16GB显存
# echo 'COMPOSE_PROFILES=gpu-24gb' > .env  # 24GB+显存

# 启动服务
docker compose -f docker-compose.bundle.yml up -d
```

系统默认需要Ollama作为推理后端，首次启动约需30秒完成初始化。

## 隐私优先的设计理念

Fortemi从设计之初就将隐私作为核心考量：

- **完全私有化**：所有数据和模型都在本地运行
- **公钥加密**：使用X25519/AES-256-GCM加密笔记分享
- **OAuth2 + API密钥**：可选的身份验证机制
- **多记忆档案**：支持schema隔离的并行记忆空间，适合多租户场景

这意味着你的敏感笔记、机密文档、私人照片都不会离开你的服务器，适合对数据安全有严格要求的个人和组织。

## 总结与展望

Fortemi代表了知识管理系统的一个重要演进方向——从被动存储到主动理解。通过结合语义搜索、自动知识图谱、多模态处理和MCP协议，它提供了一个真正"智能"的知识库解决方案。

对于个人用户，HotM桌面应用提供了开箱即用的体验；对于开发者和团队，Docker部署提供了灵活可扩展的后端服务。无论是管理个人笔记、构建团队知识库，还是为AI代理提供上下文支持，Fortemi都是一个值得关注的开源项目。

在AI时代，知识的价值不仅在于存储，更在于连接和发现。Fortemi正是为此而生的工具。