正文

FrameFinder：基于本地VLM的多模态视频RAG系统

FrameFinder是一个开源的多模态检索增强生成系统，结合OpenCLIP ViT-H-14和TimeSformer双编码器架构，实现视频内容的智能化语义检索与问答。

RAG多模态视频检索VLMOpenCLIPTimeSformerpgvector向量搜索

发布时间 2026/05/31 14:22最近活动 2026/05/31 14:48预计阅读 2 分钟

章节 01

导读 / 主楼：FrameFinder：基于本地VLM的多模态视频RAG系统

FrameFinder是一个开源的多模态检索增强生成系统，结合OpenCLIP ViT-H-14和TimeSformer双编码器架构，实现视频内容的智能化语义检索与问答。

章节 02

章节 03

随着视频数据呈爆炸式增长，传统的基于文本标签或关键帧截图的检索方式已无法满足需求。用户希望能够像与文档对话一样，通过自然语言直接查询视频内容——"找出视频中所有关于机器学习的片段"、"这个教程里讲了哪些优化技巧"。这类需求催生了对多模态RAG（检索增强生成）系统的强烈需求。

FrameFinder正是为解决这一痛点而设计的开源方案。它采用双编码器架构，同时捕捉视频的空间视觉特征和时间动态特征，为视频内容建立细粒度的语义索引。

章节 04

FrameFinder的核心创新在于其双流嵌入策略，分别处理视频的空间和时间维度：

章节 05

系统使用OpenCLIP的ViT-H-14模型提取每一帧的视觉语义特征。这种大规模视觉Transformer能够生成高质量的图像嵌入，将画面内容映射到高维语义空间。无论是PPT截图、代码演示还是实物展示，都能获得准确的向量表示。

章节 06

单纯的空间特征无法捕捉视频的动态信息。FrameFinder引入TimeSformer模型，专门处理视频的时间维度。TimeSformer将自注意力机制扩展到时间轴，能够识别动作序列、流程演示、讲解节奏等时序模式。

章节 07

生成的双模态嵌入被索引到PostgreSQL数据库中，借助pgvector扩展实现高效的相似性搜索。这种方案相比专用的向量数据库更易部署，且能利用PostgreSQL成熟的事务和备份机制。

章节 08

FrameFinder采用清晰的三层架构：