Zing 论坛

正文

RzenEmbed:多模态RAG场景下的高性能嵌入模型

本文介绍360CVGroup开源的RzenEmbed嵌入模型,该模型专为多模态RAG场景优化,在MMEB基准测试中取得整体和VisDoc双项第一。

嵌入模型多模态RAG向量检索MMEB文档理解视觉文档开源模型
发布时间 2026/06/16 17:44最近活动 2026/06/16 18:03预计阅读 2 分钟
RzenEmbed:多模态RAG场景下的高性能嵌入模型
2

章节 02

项目背景:多模态RAG场景对专用嵌入模型的需求

在检索增强生成(RAG)系统中,嵌入模型是将文本、图像等多模态内容转换为向量的关键,其质量直接影响检索准确性和生成相关性。传统模型多针对单一模态设计,难以处理图文混合的多模态文档。随着多模态RAG在文档问答、知识库检索等场景的广泛应用,对专门优化的多模态嵌入模型需求日益迫切。RzenEmbed正是针对这一需求推出的模型。

3

章节 03

技术方法:多模态编码器设计与训练策略

RzenEmbed采用多塔架构处理不同模态输入:

  • 文本编码器:基于Transformer,针对文档级长文本优化,支持多语言及上下文关系。
  • 视觉编码器:采用ViT架构,处理文档图像等视觉内容,提取文本、图表、布局信息,与文本编码器共享向量空间。
  • 跨模态融合:通过对比学习、图文对齐联合表示学习及细粒度交互机制实现。

训练策略采用多阶段:预训练(大规模图文对)→文档级训练(长上下文)→RAG专项微调→指令微调。数据构建包括合成数据、真实文档、检索对构建及难负例挖掘。

4

章节 04

性能证据:MMEB基准测试双料冠军

MMEB(Massive Multimodal Embedding Benchmark)是权威多模态嵌入评估基准,覆盖多任务、多领域、多语言及真实场景。VisDoc专项针对视觉文档理解,测试多样文档类型、图文混排、结构化信息及跨页关联。

RzenEmbed在MMEB中取得整体和VisDoc专项双第一,关键因素包括:领域专注多模态RAG、高质量文档级训练数据、优化的网络架构、多阶段渐进式训练。

5

章节 05

应用场景:多模态RAG及企业知识库等领域的应用

RzenEmbed的应用场景包括:

  • 企业知识库检索:产品手册、技术文档问答、培训材料搜索、法规合规查询。
  • 学术文献分析:论文检索、实验方法复现、文献综述生成、研究趋势分析。
  • 多模态RAG系统:文档问答、内容推荐、知识图谱构建、智能摘要。
6

章节 06

使用建议:模型加载、索引构建与检索优化

使用与部署建议:

  • 模型加载:支持Transformers库、Sentence-Transformers、ONNX导出及量化版本。
  • 向量索引构建:文档解析→分块→嵌入生成→存入向量数据库(如Chroma、Milvus)。
  • 检索优化:混合检索(关键词+向量)、重排序(交叉编码器)、查询扩展、元数据过滤。
7

章节 07

总结与未来:专业化场景模型的价值与发展

RzenEmbed代表多模态嵌入模型向专业化、场景化发展的趋势,其MMEB双料冠军证明了场景化优化的价值。对企业级多模态知识库、文档问答系统开发者而言,它是高质量开源可定制组件。

未来方向:模型更大规模、支持更多模态(视频/音频)、更长上下文、领域特化(法律/医疗);技术优化包括推理加速、压缩技术、动态推理。