章节 01
【导读】从原生RAG到智能体RAG的渐进式学习路径
介绍开源项目native-to-agentic-rag,该项目提供从基础LangChain检索流程到具备质量评估、路由决策和网络回退能力的LangGraph智能体工作流的清晰学习路径,解决开发者入门时简单RAG示例理想化、复杂智能体系统难理解的困境,聚焦论文搜索与阅读场景(语料库含经典NLP论文),分两阶段帮助系统掌握RAG演进路径。
正文
一个结构化的RAG学习项目,从基础LangChain检索流程到具备质量评估、路由决策和网络回退能力的LangGraph智能体工作流,帮助开发者系统掌握检索增强生成的演进路径。
章节 01
介绍开源项目native-to-agentic-rag,该项目提供从基础LangChain检索流程到具备质量评估、路由决策和网络回退能力的LangGraph智能体工作流的清晰学习路径,解决开发者入门时简单RAG示例理想化、复杂智能体系统难理解的困境,聚焦论文搜索与阅读场景(语料库含经典NLP论文),分两阶段帮助系统掌握RAG演进路径。
章节 02
项目定位为"学习路径"而非"最终演示",作者TheAlanWang意识到直接跳入复杂智能体架构易让学习者困惑,因此拆分为两阶段:第一阶段教授检索基本机制,第二阶段展示通过图编排添加智能决策层;聚焦论文搜索场景,语料库包含《Attention Is All You Need》和BERT等经典NLP论文,让学习者在真实知识问答场景理解RAG演进。
章节 03
用LangChain构建线性流程,核心目标是理解文档→分块→嵌入→向量存储→问答生成的核心循环;具体流程:文档加载(Markdown转Document对象)、文本分块、嵌入生成(Ollama的embeddinggemma模型)、Chroma向量存储、问答生成(qwen3:4b模型);刻意省略高级功能(文档质量评估、网络搜索回退、幻觉检测、图逻辑),让初学者专注核心机制。
章节 04
用LangGraph构建有状态智能体工作流,具备多层面智能:文档相关性评分(过滤低价值上下文)、条件路由(本地检索质量不足时触发Tavily网络搜索)、答案质量检查(幻觉检测和充分性评估);关键概念是LangGraph的共享状态机制(节点可读写共享状态)和条件边(动态选择下一步路径),实现非固定流程的自适应决策。
章节 05
共享技术栈:Python、Ollama本地模型服务、LangChain文档处理、Chroma向量存储;第二阶段新增LangGraph状态编排、Firecrawl论文抓取、Tavily网络搜索;架构差异:原生RAG是线性管道,智能体RAG是带条件分支的图;原生无回退行为和失败处理,智能体有网络回退、重试、质量检查等恢复路径;心智模型从线性流程转为状态+节点+边+条件路由。
章节 06
新手从第一阶段开始建立基线理解;有检索基础者快速浏览第一阶段获取仓库上下文,重点投入第二阶段;阅读顺序:第一阶段README→index_part.py和query_part.py(理解实现细节),确保掌握核心循环后进入第二阶段README→graph_part.py、state.py和nodes.py(理解状态、节点逻辑和路由决策)。
章节 07
项目价值在于渐进式学习设计,分解复杂系统为可理解阶段,帮助建立扎实基础再引入抽象概念;架构启示:智能体是基础RAG的增强而非替代,共享本地模型、索引概念和检索目标,通过状态记忆、判断层和路由层实现首次尝试不足时的恢复,"分层增强"设计思路值得实际项目借鉴。