正文

濒危语言保护新实践：Chakma语机器翻译的QLoRA微调方案

本文介绍UCL数据科学硕士项目The Chakma Project，通过构建首个Chakma-英语词级翻译数据集，并采用QLoRA技术微调LLaMA和Gemma模型，为濒危语言的数字化保护提供了技术范例。

濒危语言Chakma语机器翻译QLoRALLaMAGemma低资源语言NLP

发布时间 2026/04/17 20:44最近活动 2026/04/17 20:51预计阅读 2 分钟

章节 01

导读：Chakma语机器翻译项目为濒危语言保护提供技术范例

全球超40%语言面临灭绝风险，Chakma语作为东孟加拉地区的濒危语言，因缺乏数字化资源导致主流机器翻译系统无法支持。伦敦大学学院（UCL）数据科学硕士项目The Chakma Project通过构建首个Chakma-英语词级翻译数据集，并采用QLoRA技术微调LLaMA 3.1 8B和Gemma3 4B模型，首次实现Chakma语机器翻译能力，为濒危语言数字化保护提供可参考的技术路径。

章节 02

背景：Chakma语的数字化困境

Chakma语属于藏缅语系，使用人口约30万，被联合国教科文组织列为濒危语言。其数字化面临三大挑战：1.训练数据稀缺（互联网上几乎无Chakma语文本）；2.标准化缺失（多种罗马化拼写方案）；3.验证困难（懂Chakma语的专家极少）。主流大语言模型（如GPT-4、Claude）对其支持有限，翻译质量极差。

章节 03

方法：Chakma-英语翻译数据集构建

项目从1993年出版的《Chakma Dictionary》纸质词典中手工提取20,206对Chakma-英语词汇对照，经三位Chakma语母语者（Phonebuson Chakma、Pankaj Chakma、Soumik Chakma）验证，形成ChakmaBridge Verified Version数据集。此外，构建约800对句子级对照数据集MELD（未用于训练，仅作评估）。数据提取过程需解决罗马化不一致、格式多样性等问题。

章节 04

方法：QLoRA微调技术与模型选择

项目选择QLoRA技术微调LLaMA3.1 8B和Gemma3 4B模型，原因包括：开源可商用、参数规模适中（消费级硬件可运行）、多语言基线良好。QLoRA优势：显存效率高（4-bit量化，单A100可微调8B模型）、参数高效（仅训练LoRA适配器）、推理友好。训练配置：LoRA rank=16，alpha=32，dropout=0.05，量化精度4-bit，学习率1e-4，批次大小1，最大token长度256，训练轮数2 epochs。

章节 05

结果：模型性能评估

采用chrF（字符n-gram F-score）评估词级翻译质量。结果显示：LLaMA-QLoRA（14.83）优于Gemma-QLoRA（11.10），可能因LLaMA参数更大、多语言预训练基础更强。句子级评估（用MELD数据集）显示模型有一定泛化能力，但未参与训练。尽管分数绝对值不高，但考虑数据稀缺、语言复杂度、独立测试集等因素，结果已具意义。

章节 06

贡献：开源资源与方法论价值

项目贡献包括：1.首次实现Chakma-英语翻译系统；2.开源资源（训练数据集Final_Chakma.csv、验证数据集ChakmaBridge Verified Version.csv、微调脚本、推理脚本test_adapter.py、LoRA适配器权重）。方法论启示：数据质量优先、迁移学习有效、母语者参与关键。

章节 07