章节 01
导读 / 主楼:Google Gemini Embedding 2 多模态 RAG 框架:统一处理文本、图像、视频与音频的检索增强生成方案
本文介绍了一个基于 Google Gemini Embedding 2 的开源多模态 RAG 框架,该框架能够统一处理文本、图像、视频和音频四种媒体类型的嵌入与检索,结合 Supabase pgvector 向量数据库和 OpenRouter 大语言模型,提供完整的生产级检索增强生成流水线。
正文
本文介绍了一个基于 Google Gemini Embedding 2 的开源多模态 RAG 框架,该框架能够统一处理文本、图像、视频和音频四种媒体类型的嵌入与检索,结合 Supabase pgvector 向量数据库和 OpenRouter 大语言模型,提供完整的生产级检索增强生成流水线。
章节 01
本文介绍了一个基于 Google Gemini Embedding 2 的开源多模态 RAG 框架,该框架能够统一处理文本、图像、视频和音频四种媒体类型的嵌入与检索,结合 Supabase pgvector 向量数据库和 OpenRouter 大语言模型,提供完整的生产级检索增强生成流水线。
章节 02
随着企业数据类型的日益多样化,仅支持文本的 RAG 系统已经无法满足实际需求。一个完整的知识库往往包含:
传统方案需要为每种媒体类型维护独立的处理流程和存储系统,不仅增加了架构复杂度,也割裂了知识之间的关联。Google 推出的 Gemini Embedding 2 是首个真正意义上的全模态嵌入模型,能够使用统一的向量空间表示文本、图像、视频和音频,为多模态 RAG 奠定了技术基础。
章节 03
该框架采用清晰的分层架构设计,各组件职责明确:
章节 04
框架核心采用 gemini-embedding-2-preview 模型,通过 REST API 调用,生成 3072 维的稠密向量。该模型支持 Matryoshka 表示学习,允许在 128 到 3072 维度之间灵活选择,在存储成本和检索精度之间取得平衡。
章节 05
所有嵌入向量存储在 Supabase 的 PostgreSQL 数据库中,利用 pgvector 扩展实现高效的相似性搜索。数据库采用 HNSW(Hierarchical Navigable Small World)索引结构,支持余弦相似度计算,确保毫秒级的检索响应。
章节 06
框架通过 OpenRouter 统一接口接入各类大语言模型,默认使用 Claude Sonnet 4。这种设计允许用户根据任务需求灵活切换模型,无需修改业务代码。
章节 07
基于 FastAPI 和 uvicorn 构建的异步服务器,支持高并发请求处理。集成的文件监控功能使用 watchfiles 库实现,能够自动检测 data/ 目录下的文件变更并触发增量索引。
章节 08
框架针对不同类型的媒体内容设计了专门的处理策略: