正文

RespondeoQA：首个拉丁语-英语双语问答基准数据集发布

RespondeoQA是首个专注于拉丁语的问答基准数据集，包含约7800个拉丁语-英语双语问答对，涵盖知识型、技能型、多跳推理和翻译约束等多种题型。研究团队通过评估LLaMa 3、Qwen QwQ和o3-mini发现，当前大模型在拉丁语技能型问题上表现不佳，为该领域的模型能力评估提供了重要资源。

拉丁语问答基准双语数据集大模型评估古典语言自然语言处理LLaMaQwen低资源语言

发布时间 2026/04/23 00:24最近活动 2026/04/23 10:48预计阅读 2 分钟

章节 01

RespondeoQA：首个拉丁语-英语双语问答基准数据集发布（导读）

章节 02

背景：古典语言在AI领域的被忽视现状

拉丁语作为西方文明的基石，在法学、医学、神学及学术命名等领域至今仍有深远影响。然而，现有自然语言处理基准大多聚焦于现代主流语言，对于古典语言的系统性评估几乎处于空白状态。

章节 03

数据集构建方法与特点

RespondeoQA的数据来源包括考试题目、知识竞赛题、19世纪至今的教科书内容；构建流程经过自动化提取、数据清洗和人工审核三重把关；问题类型覆盖知识型（词汇、语法、历史文化）、技能型（诗歌格律分析、修辞识别）、多跳推理、翻译约束、混合语言对。

章节 04

模型评估结果：技能型问题表现显著不足

研究团队选取LLaMa 3、Qwen QwQ、OpenAI o3-mini三款模型评估，结果显示所有模型在技能型问题上表现明显逊于知识型问题；推理模型（QwQ和o3-mini）在诗歌格律分析和修辞识别上有一定优势但提升有限；QwQ在拉丁语提问的问题上表现稍好，LLaMa 3和o3-mini任务依赖性较强。

章节 05