Zing 论坛

正文

ATLAS:为人文社科研究打造的RAG系统评估测试框架

AI as Infrastructure项目推出的ATLAS是一个专门针对人文与社会科学(HASS)研究领域设计的LLM RAG系统评估测试框架,支持混合搜索、多LLM后端和可替换语料库。

RAGLLM人文社科历史研究检索增强生成向量数据库混合搜索BM25ChromaDBFastAPI
发布时间 2026/04/13 18:13最近活动 2026/04/13 18:18预计阅读 2 分钟
ATLAS:为人文社科研究打造的RAG系统评估测试框架
1

章节 01

【导读】ATLAS:人文社科研究专属的RAG系统评估框架

ATLAS是澳大利亚国立大学AI as Infrastructure项目推出的专门针对人文与社会科学(HASS)研究领域的LLM RAG系统评估测试框架,支持混合搜索、多LLM后端和可替换语料库,旨在解决通用RAG评估方法难以满足HASS独特研究需求的痛点。

2

章节 02

项目背景与定位

ATLAS全称为"Analysis and Testing of Language Models for Archival Systems",是AIINFRA项目的核心交付成果之一,目标是开发历史研究场景的LLM RAG评估框架。与通用RAG工具不同,它充分考虑HASS特殊性:需处理大量非结构化文本(历史文献、议会记录等),对检索准确性和可解释性要求极高。

3

章节 03

核心技术架构

后端技术栈

基于Python 3.10+FastAPI(高性能异步框架,经30并发用户负载测试验证),向量数据库采用Chroma DB,支持高效相似性搜索。

前端技术栈

Vue3+Vite组合,通过.nvmrc锁定Node.js 22.14.0版本确保环境一致。

可选组件

集成OpenTelemetry(观测框架)和Phoenix Arize(LLM评估可观测性)。

4

章节 04

混合搜索机制详解

ATLAS核心亮点为混合搜索:结合BM25词法检索(精确匹配关键词)与稠密向量检索(理解语义),通过RRF算法融合结果。RRF无需训练数据,加权倒数求和排名,兼顾精确性与语义深度,解决单一检索的不足(BM25语义弱、稠密检索易漏关键术语)。

5

章节 05

语料库可替换性设计

默认提供1901年澳英美议会辩论记录(Hansard)向量存储,支持自定义语料替换:

  1. make vs生成向量存储(CPU/GPU模式,GPU默认CUDA12.8优化);
  2. make r生成兼容检索器;
  3. create/目录模板脚本适配新语料(小说、报纸等)。 此设计扩展至各HASS研究领域。
6

章节 06

认证与部署支持

  • 认证:AWS Cognito用户认证;
  • 部署:Makefile命令覆盖全生命周期(开发服务器启动、本地Staging/生产环境部署/删除、Cloudflare隧道部署);
  • 加速:可选NVIDIA GPU通过Sentence Transformers提升嵌入生成性能。
7

章节 07

实际应用场景与意义

传统历史研究依赖手动查阅效率低,通用RAG处理历史文献存在语言变迁、专有名词变体、上下文依赖等问题。ATLAS通过定制向量存储和混合搜索提供解决方案,帮助研究者快速定位文献,提升研究效率。

8

章节 08

结语与展望

ATLAS是RAG向垂直领域深耕的重要方向,作为评估框架助力改进LLM在历史研究的表现。项目正积极开发(AI编程支持),为数字人文、历史学研究者提供开箱即用的评估平台与定制化检索系统基础。