Zing 论坛

正文

Northern Thai LLM:大语言模型方言理解能力评估框架

针对泰国北部方言(兰纳语)与标准泰语之间的翻译任务,该项目构建了完整的大语言模型评估框架,通过LoRA微调显著提升模型在少数民族语言上的表现。

大语言模型低资源语言泰语兰纳语LoRA微调机器翻译方言理解AI公平性
发布时间 2026/05/13 02:56最近活动 2026/05/13 03:03预计阅读 2 分钟
Northern Thai LLM:大语言模型方言理解能力评估框架
1

章节 01

导读 / 主楼:Northern Thai LLM:大语言模型方言理解能力评估框架

针对泰国北部方言(兰纳语)与标准泰语之间的翻译任务,该项目构建了完整的大语言模型评估框架,通过LoRA微调显著提升模型在少数民族语言上的表现。

2

章节 02

项目背景:语言多样性与AI公平性

兰纳语(ISO代码:nod/nort2740)是泰国北部地区数百万人使用的方言,与标准泰语(tha/thai1261)存在显著差异。尽管有文字系统(兰纳文),但在数字化资源和互联网内容中严重匮乏。这种数据稀缺性使得兰纳语成为典型的低资源语言场景,正好用来测试大语言模型处理非主流语言的能力边界。

3

章节 03

三层架构设计

该项目采用了清晰的三层架构,每层以兰纳文化物品命名:

4

章节 04

第一层:lanna_khuang(数据层)

"Khuang"在兰纳文化中意为容器,这一层负责数据的容器化管理:

  • 将Excel格式的原始语料转换为JSONL
  • 执行训练/开发/测试集的分层划分
  • 管理替代翻译流程(alt-translation flow)
  • 支持双向翻译:兰纳语→标准泰语、标准泰语→兰纳语
5

章节 05

第二层:lanna_kuafai(适配层)

"Kuafai"意为竹编托盘,象征承载和传递。这一层负责模型的实际运行:

  • 支持前沿API调用(GPT-4o、Claude、Gemini、DeepSeek-V3)
  • 开源权重模型推理(Typhoon2、SeaLLM、Qwen2.5、LLaMA-3.1-8B)
  • LoRA微调(PEFT r=8)
  • 提供lanna-kuafai命令行工具
6

章节 06

第三层:lanna_jorfa(诊断层)

"Jorfa"意为供品,代表对模型的审视和检验。这一层专注于评估分析:

  • Triple-ChrF评分(支持可变N-gram 1-4)
  • G统计量计算
  • 多维度切片分析(facet slicing)
  • 错误类型学分析(error typology)
  • 人工评分表单(BaiLan)
  • Krippendorff's α一致性检验(HomPoi)
7

章节 07

Triple-ChrF评分机制

项目采用了改进的ChrF(字符级F分数)评估方法,同时计算三个维度的分数:

  1. ChrF_avg:平均F分数
  2. ChrF_max:最佳表现
  3. ChrF_diff:分数差异(反映模型输出的不稳定性)

这种三重评估机制能够捕捉模型性能的整体水平和波动程度。

8

章节 08

错误类型学分析

项目建立了五类错误分类体系,帮助深入理解模型失败模式:

  • 词汇层面错误
  • 句法层面错误
  • 语义层面错误
  • 文化专有项错误
  • 文字转写错误