正文

评估大语言模型在立陶宛语语法格上的表现

一项针对大语言模型在立陶宛语七种语法格上表现的评估研究，包含Use_of_Cases数据集和完整的实验复现脚本。

大语言模型立陶宛语语法格低资源语言NLP评估数据集形态学多语言AI

发布时间 2026/06/15 19:17最近活动 2026/06/15 19:25预计阅读 3 分钟

章节 01

导读 / 主楼：评估大语言模型在立陶宛语语法格上的表现

一项针对大语言模型在立陶宛语七种语法格上表现的评估研究，包含Use_of_Cases数据集和完整的实验复现脚本。

章节 02

原作者与来源

原作者/维护者：Urtė Jakubauskaitė & Raquel G. Alhama
来源平台：GitHub
原始标题：Evaluating Large Language Models on Lithuanian Grammatical Cases
原始链接：https://github.com/urtuteja/Evaluating-Large-Language-Models-on-Lithuanian-Grammatical-Cases
论文链接：https://aclanthology.org/2026.loreslm-1.32/
发布时间：2026-06-15

章节 03

背景与问题

大语言模型（LLM）在英语等主流语言上表现出色，但它们在低资源语言和复杂语法现象上的表现如何？立陶宛语作为波罗的语族的语言，具有复杂的格变化系统——名词有七种语法格，每种格都有特定的语法功能和形态变化。这为评估LLM的语法理解能力提供了一个理想的测试场。

理解LLM在非英语语言上的表现，对于构建更公平、更通用的AI系统具有重要意义。

章节 04

项目概述

这项研究评估了大语言模型在立陶宛语语法格上的表现。研究提供了Use_of_Cases数据集，包含CSV和Excel两种格式。对于涉及特定动词的条目，动词信息记录在problem_source列中。

项目还包含了完整的实验复现材料：评估脚本evaluate_pairs.py和包含论文中所有讨论结果的Results.txt文件。

章节 05

数据集：Use_of_Cases

Use_of_Cases数据集是这项研究的核心贡献。它专门设计用于测试模型在立陶宛语七种语法格上的理解能力：

主格（Nominative）：表示主语
属格（Genitive）：表示所有关系
与格（Dative）：表示间接宾语
宾格（Accusative）：表示直接宾语
工具格（Instrumental）：表示使用工具或伴随
位置格（Locative）：表示位置
呼格（Vocative）：表示称呼

每种格都有其特定的形态变化规则和语法功能，构成了立陶宛语语法的核心挑战。

章节 06

实验方法

研究采用成对评估方法（pair evaluation），测试模型在给定上下文中选择正确语法格的能力。评估脚本evaluate_pairs.py支持通过Hugging Face加载各种预训练模型进行测试。

这种方法的优势在于：它直接测试模型对语法规则的掌握，而非仅仅评估生成文本的流畅度。通过对比模型选择正确格形式的能力，可以精确量化其语法理解水平。

章节 07

使用方法

项目提供了简洁的命令行接口来运行评估：

python3 evaluate_pairs.py \
    --model <MODEL_NAME> \
    --input Use_of_Cases.csv \
    --output EVALUATED_Uses_of_Cases.csv \
    --token <YOUR_HF_TOKEN>

这种设计使得其他研究者可以方便地复现实验结果，或在相同数据集上测试新的模型。

章节 08