Zing 论坛

正文

RespondeoQA:首个拉丁语-英语双语问答基准数据集发布

RespondeoQA是首个专注于拉丁语的问答基准数据集,包含约7800个拉丁语-英语双语问答对,涵盖知识型、技能型、多跳推理和翻译约束等多种题型。研究团队通过评估LLaMa 3、Qwen QwQ和o3-mini发现,当前大模型在拉丁语技能型问题上表现不佳,为该领域的模型能力评估提供了重要资源。

拉丁语问答基准双语数据集大模型评估古典语言自然语言处理LLaMaQwen低资源语言
发布时间 2026/04/23 00:24最近活动 2026/04/23 10:48预计阅读 2 分钟
RespondeoQA:首个拉丁语-英语双语问答基准数据集发布
1

章节 01

RespondeoQA:首个拉丁语-英语双语问答基准数据集发布(导读)

RespondeoQA是首个专注于拉丁语的问答基准数据集,包含约7800个拉丁语-英语双语问答对,涵盖知识型、技能型、多跳推理和翻译约束等多种题型。研究团队通过评估LLaMa 3、Qwen QwQ和o3-mini发现,当前大模型在拉丁语技能型问题上表现不佳,为该领域的模型能力评估提供了重要资源。

2

章节 02

背景:古典语言在AI领域的被忽视现状

拉丁语作为西方文明的基石,在法学、医学、神学及学术命名等领域至今仍有深远影响。然而,现有自然语言处理基准大多聚焦于现代主流语言,对于古典语言的系统性评估几乎处于空白状态。

3

章节 03

数据集构建方法与特点

RespondeoQA的数据来源包括考试题目、知识竞赛题、19世纪至今的教科书内容;构建流程经过自动化提取、数据清洗和人工审核三重把关;问题类型覆盖知识型(词汇、语法、历史文化)、技能型(诗歌格律分析、修辞识别)、多跳推理、翻译约束、混合语言对。

4

章节 04

模型评估结果:技能型问题表现显著不足

研究团队选取LLaMa 3、Qwen QwQ、OpenAI o3-mini三款模型评估,结果显示所有模型在技能型问题上表现明显逊于知识型问题;推理模型(QwQ和o3-mini)在诗歌格律分析和修辞识别上有一定优势但提升有限;QwQ在拉丁语提问的问题上表现稍好,LLaMa 3和o3-mini任务依赖性较强。

5

章节 05

RespondeoQA的技术意义与学术价值

RespondeoQA填补了古典语言问答基准的空白,为低资源古典语言模型评估提供标准化工具;其构建方法可迁移到其他古典或濒危语言,支持语言多样性保护;可用于拉丁语教学辅助,检验学习者知识掌握程度;推动数字化时代人文知识传承。

6

章节 06

局限与未来展望

当前评估仅覆盖三款模型,样本量有限;数据集中问题主要来源于教学场景,复杂学术和文学创作场景覆盖不足。未来可扩展至更多开源和闭源模型,形成全面能力图谱;加强复杂场景覆盖;将构建流程迁移到古希腊语、梵语等古典语言,构建综合评估体系。