章节 01
【导读】ATLAS:人文社科研究专属的RAG系统评估框架
ATLAS是澳大利亚国立大学AI as Infrastructure项目推出的专门针对人文与社会科学(HASS)研究领域的LLM RAG系统评估测试框架,支持混合搜索、多LLM后端和可替换语料库,旨在解决通用RAG评估方法难以满足HASS独特研究需求的痛点。
正文
AI as Infrastructure项目推出的ATLAS是一个专门针对人文与社会科学(HASS)研究领域设计的LLM RAG系统评估测试框架,支持混合搜索、多LLM后端和可替换语料库。
章节 01
ATLAS是澳大利亚国立大学AI as Infrastructure项目推出的专门针对人文与社会科学(HASS)研究领域的LLM RAG系统评估测试框架,支持混合搜索、多LLM后端和可替换语料库,旨在解决通用RAG评估方法难以满足HASS独特研究需求的痛点。
章节 02
ATLAS全称为"Analysis and Testing of Language Models for Archival Systems",是AIINFRA项目的核心交付成果之一,目标是开发历史研究场景的LLM RAG评估框架。与通用RAG工具不同,它充分考虑HASS特殊性:需处理大量非结构化文本(历史文献、议会记录等),对检索准确性和可解释性要求极高。
章节 03
基于Python 3.10+FastAPI(高性能异步框架,经30并发用户负载测试验证),向量数据库采用Chroma DB,支持高效相似性搜索。
Vue3+Vite组合,通过.nvmrc锁定Node.js 22.14.0版本确保环境一致。
集成OpenTelemetry(观测框架)和Phoenix Arize(LLM评估可观测性)。
章节 04
ATLAS核心亮点为混合搜索:结合BM25词法检索(精确匹配关键词)与稠密向量检索(理解语义),通过RRF算法融合结果。RRF无需训练数据,加权倒数求和排名,兼顾精确性与语义深度,解决单一检索的不足(BM25语义弱、稠密检索易漏关键术语)。
章节 05
默认提供1901年澳英美议会辩论记录(Hansard)向量存储,支持自定义语料替换:
make vs生成向量存储(CPU/GPU模式,GPU默认CUDA12.8优化);make r生成兼容检索器;create/目录模板脚本适配新语料(小说、报纸等)。
此设计扩展至各HASS研究领域。章节 06
章节 07
传统历史研究依赖手动查阅效率低,通用RAG处理历史文献存在语言变迁、专有名词变体、上下文依赖等问题。ATLAS通过定制向量存储和混合搜索提供解决方案,帮助研究者快速定位文献,提升研究效率。
章节 08
ATLAS是RAG向垂直领域深耕的重要方向,作为评估框架助力改进LLM在历史研究的表现。项目正积极开发(AI编程支持),为数字人文、历史学研究者提供开箱即用的评估平台与定制化检索系统基础。