正文

ATLAS：为人文社科研究打造的RAG系统评估测试框架

AI as Infrastructure项目推出的ATLAS是一个专门针对人文与社会科学（HASS）研究领域设计的LLM RAG系统评估测试框架，支持混合搜索、多LLM后端和可替换语料库。

RAGLLM人文社科历史研究检索增强生成向量数据库混合搜索BM25ChromaDBFastAPI

发布时间 2026/04/13 18:13最近活动 2026/04/13 18:18预计阅读 2 分钟

章节 01

【导读】ATLAS：人文社科研究专属的RAG系统评估框架

ATLAS是澳大利亚国立大学AI as Infrastructure项目推出的专门针对人文与社会科学（HASS）研究领域的LLM RAG系统评估测试框架，支持混合搜索、多LLM后端和可替换语料库，旨在解决通用RAG评估方法难以满足HASS独特研究需求的痛点。

章节 02

项目背景与定位

ATLAS全称为"Analysis and Testing of Language Models for Archival Systems"，是AIINFRA项目的核心交付成果之一，目标是开发历史研究场景的LLM RAG评估框架。与通用RAG工具不同，它充分考虑HASS特殊性：需处理大量非结构化文本（历史文献、议会记录等），对检索准确性和可解释性要求极高。

章节 03

核心技术架构

后端技术栈

基于Python 3.10+FastAPI（高性能异步框架，经30并发用户负载测试验证），向量数据库采用Chroma DB，支持高效相似性搜索。

前端技术栈

Vue3+Vite组合，通过.nvmrc锁定Node.js 22.14.0版本确保环境一致。

可选组件

集成OpenTelemetry（观测框架）和Phoenix Arize（LLM评估可观测性）。

章节 04

混合搜索机制详解

ATLAS核心亮点为混合搜索：结合BM25词法检索（精确匹配关键词）与稠密向量检索（理解语义），通过RRF算法融合结果。RRF无需训练数据，加权倒数求和排名，兼顾精确性与语义深度，解决单一检索的不足（BM25语义弱、稠密检索易漏关键术语）。

章节 05

语料库可替换性设计

默认提供1901年澳英美议会辩论记录（Hansard）向量存储，支持自定义语料替换：

make vs生成向量存储（CPU/GPU模式，GPU默认CUDA12.8优化）；
make r生成兼容检索器；
create/目录模板脚本适配新语料（小说、报纸等）。此设计扩展至各HASS研究领域。

章节 06

认证与部署支持

认证：AWS Cognito用户认证；
部署：Makefile命令覆盖全生命周期（开发服务器启动、本地Staging/生产环境部署/删除、Cloudflare隧道部署）；
加速：可选NVIDIA GPU通过Sentence Transformers提升嵌入生成性能。

章节 07

实际应用场景与意义

传统历史研究依赖手动查阅效率低，通用RAG处理历史文献存在语言变迁、专有名词变体、上下文依赖等问题。ATLAS通过定制向量存储和混合搜索提供解决方案，帮助研究者快速定位文献，提升研究效率。

章节 08

结语与展望

ATLAS是RAG向垂直领域深耕的重要方向，作为评估框架助力改进LLM在历史研究的表现。项目正积极开发（AI编程支持），为数字人文、历史学研究者提供开箱即用的评估平台与定制化检索系统基础。