章节 01
RespondeoQA:首个拉丁语-英语双语问答基准数据集发布(导读)
RespondeoQA是首个专注于拉丁语的问答基准数据集,包含约7800个拉丁语-英语双语问答对,涵盖知识型、技能型、多跳推理和翻译约束等多种题型。研究团队通过评估LLaMa 3、Qwen QwQ和o3-mini发现,当前大模型在拉丁语技能型问题上表现不佳,为该领域的模型能力评估提供了重要资源。
正文
RespondeoQA是首个专注于拉丁语的问答基准数据集,包含约7800个拉丁语-英语双语问答对,涵盖知识型、技能型、多跳推理和翻译约束等多种题型。研究团队通过评估LLaMa 3、Qwen QwQ和o3-mini发现,当前大模型在拉丁语技能型问题上表现不佳,为该领域的模型能力评估提供了重要资源。
章节 01
RespondeoQA是首个专注于拉丁语的问答基准数据集,包含约7800个拉丁语-英语双语问答对,涵盖知识型、技能型、多跳推理和翻译约束等多种题型。研究团队通过评估LLaMa 3、Qwen QwQ和o3-mini发现,当前大模型在拉丁语技能型问题上表现不佳,为该领域的模型能力评估提供了重要资源。
章节 02
拉丁语作为西方文明的基石,在法学、医学、神学及学术命名等领域至今仍有深远影响。然而,现有自然语言处理基准大多聚焦于现代主流语言,对于古典语言的系统性评估几乎处于空白状态。
章节 03
RespondeoQA的数据来源包括考试题目、知识竞赛题、19世纪至今的教科书内容;构建流程经过自动化提取、数据清洗和人工审核三重把关;问题类型覆盖知识型(词汇、语法、历史文化)、技能型(诗歌格律分析、修辞识别)、多跳推理、翻译约束、混合语言对。
章节 04
研究团队选取LLaMa 3、Qwen QwQ、OpenAI o3-mini三款模型评估,结果显示所有模型在技能型问题上表现明显逊于知识型问题;推理模型(QwQ和o3-mini)在诗歌格律分析和修辞识别上有一定优势但提升有限;QwQ在拉丁语提问的问题上表现稍好,LLaMa 3和o3-mini任务依赖性较强。
章节 05
RespondeoQA填补了古典语言问答基准的空白,为低资源古典语言模型评估提供标准化工具;其构建方法可迁移到其他古典或濒危语言,支持语言多样性保护;可用于拉丁语教学辅助,检验学习者知识掌握程度;推动数字化时代人文知识传承。
章节 06
当前评估仅覆盖三款模型,样本量有限;数据集中问题主要来源于教学场景,复杂学术和文学创作场景覆盖不足。未来可扩展至更多开源和闭源模型,形成全面能力图谱;加强复杂场景覆盖;将构建流程迁移到古希腊语、梵语等古典语言,构建综合评估体系。