正文

从零构建RAG系统：在vLLM代码库上实现检索增强生成

一个基于BM25检索和本地大语言模型的RAG管道实现，专为代码库问答设计，支持精确的源码引用和评估指标验证。

RAGBM25vLLM代码检索本地LLMQwen检索增强生成代码问答

发布时间 2026/06/11 19:11最近活动 2026/06/11 19:19预计阅读 3 分钟

章节 01

导读 / 主楼：从零构建RAG系统：在vLLM代码库上实现检索增强生成

一个基于BM25检索和本地大语言模型的RAG管道实现，专为代码库问答设计，支持精确的源码引用和评估指标验证。

章节 02

章节 03

在大型语言模型(LLM)快速发展的今天，如何让AI准确回答关于特定代码库的问题成为一个关键挑战。通用LLM虽然知识广博，但在面对特定项目代码时往往会出现"幻觉"——生成看似合理但实际错误的答案。

Retrieval-Augmented Generation(RAG，检索增强生成)技术应运而生，它通过将外部知识检索与文本生成相结合，让模型在回答问题时能够引用真实来源。本项目正是这一技术在代码库问答场景中的完整实现，针对vLLM这一热门推理框架的代码库构建了端到端的RAG管道。

章节 04

整个RAG系统由三个核心模块组成，形成完整的数据流闭环：

章节 05

索引器负责将原始代码库转换为可搜索的结构化数据。它遍历vllm-0.10.1目录，读取所有.py和.md文件，使用RecursiveCharacterTextSplitter进行智能分块。

针对不同文件类型，项目采用了差异化的分块策略：

Python代码文件: 使用语言特定的分隔符(如\nclass 、\ndef 、\n\tdef 等)，确保分块边界与代码结构(类、函数)对齐，并设置50%的重叠率防止定义被截断
Markdown文档: 采用默认的分层分隔策略(段落→行→单词→字符)，10%的重叠率足以应对自然语言文本

这种差异化处理确保了代码语义单元的完整性，同时通过add_start_index=True记录每个分块在源文件中的精确字符偏移量，为后续的源引用奠定基础。

章节 06

检索器基于BM25算法实现，使用bm25s库进行高效的词汇检索。BM25(Best Matching 25)是一种经典的词频-逆文档频率(TF-IDF)改进算法，在代码检索场景中表现优异，因为它擅长匹配精确的函数名、变量名等关键词。

当用户提交查询时，系统会对查询进行分词，然后从BM25索引中检索出最相关的top-k个分块，并映射回原始文件的字符偏移范围(first_character_index, last_character_index)。

章节 07

生成器使用本地部署的Qwen/Qwen2.5-0.5B-Instruct模型(约6亿参数)。它接收检索器提供的上下文，直接从源文件中读取分块周围的扩展窗口，构建包含真实代码片段的提示词，最终生成有依据的自然语言答案。

章节 08

项目选用bm25s库而非传统方案，原因在于它使用Rust/C编写，专为BM25算法优化，能够在大型代码库(如vLLM)上实现快速检索而无需过高的内存开销。