Zing 论坛

正文

濒危语言保护新实践:Chakma语机器翻译的QLoRA微调方案

本文介绍UCL数据科学硕士项目The Chakma Project,通过构建首个Chakma-英语词级翻译数据集,并采用QLoRA技术微调LLaMA和Gemma模型,为濒危语言的数字化保护提供了技术范例。

濒危语言Chakma语机器翻译QLoRALLaMAGemma低资源语言NLP
发布时间 2026/04/17 20:44最近活动 2026/04/17 20:51预计阅读 2 分钟
濒危语言保护新实践:Chakma语机器翻译的QLoRA微调方案
1

章节 01

导读:Chakma语机器翻译项目为濒危语言保护提供技术范例

全球超40%语言面临灭绝风险,Chakma语作为东孟加拉地区的濒危语言,因缺乏数字化资源导致主流机器翻译系统无法支持。伦敦大学学院(UCL)数据科学硕士项目The Chakma Project通过构建首个Chakma-英语词级翻译数据集,并采用QLoRA技术微调LLaMA 3.1 8B和Gemma3 4B模型,首次实现Chakma语机器翻译能力,为濒危语言数字化保护提供可参考的技术路径。

2

章节 02

背景:Chakma语的数字化困境

Chakma语属于藏缅语系,使用人口约30万,被联合国教科文组织列为濒危语言。其数字化面临三大挑战:1.训练数据稀缺(互联网上几乎无Chakma语文本);2.标准化缺失(多种罗马化拼写方案);3.验证困难(懂Chakma语的专家极少)。主流大语言模型(如GPT-4、Claude)对其支持有限,翻译质量极差。

3

章节 03

方法:Chakma-英语翻译数据集构建

项目从1993年出版的《Chakma Dictionary》纸质词典中手工提取20,206对Chakma-英语词汇对照,经三位Chakma语母语者(Phonebuson Chakma、Pankaj Chakma、Soumik Chakma)验证,形成ChakmaBridge Verified Version数据集。此外,构建约800对句子级对照数据集MELD(未用于训练,仅作评估)。数据提取过程需解决罗马化不一致、格式多样性等问题。

4

章节 04

方法:QLoRA微调技术与模型选择

项目选择QLoRA技术微调LLaMA3.1 8B和Gemma3 4B模型,原因包括:开源可商用、参数规模适中(消费级硬件可运行)、多语言基线良好。QLoRA优势:显存效率高(4-bit量化,单A100可微调8B模型)、参数高效(仅训练LoRA适配器)、推理友好。训练配置:LoRA rank=16,alpha=32,dropout=0.05,量化精度4-bit,学习率1e-4,批次大小1,最大token长度256,训练轮数2 epochs。

5

章节 05

结果:模型性能评估

采用chrF(字符n-gram F-score)评估词级翻译质量。结果显示:LLaMA-QLoRA(14.83)优于Gemma-QLoRA(11.10),可能因LLaMA参数更大、多语言预训练基础更强。句子级评估(用MELD数据集)显示模型有一定泛化能力,但未参与训练。尽管分数绝对值不高,但考虑数据稀缺、语言复杂度、独立测试集等因素,结果已具意义。

6

章节 06

贡献:开源资源与方法论价值

项目贡献包括:1.首次实现Chakma-英语翻译系统;2.开源资源(训练数据集Final_Chakma.csv、验证数据集ChakmaBridge Verified Version.csv、微调脚本、推理脚本test_adapter.py、LoRA适配器权重)。方法论启示:数据质量优先、迁移学习有效、母语者参与关键。

7

章节 07

局限与未来方向

当前局限:数据规模有限、仅支持词级翻译、单向翻译(Chakma到英语)、依赖罗马化文字。未来方向:扩大数据集、句子级训练、双向翻译、支持Chakma原生文字、结合语音技术构建完整语言技术栈。