Zing 论坛

正文

领域术语感知的机器翻译:融合MarianMT与大语言模型的后编辑系统

本项目实现了arXiv:2310.14451论文中的术语感知机器翻译流水线,结合MarianMT神经机器翻译、翻译记忆库和大语言模型后编辑技术,支持TBX术语库导出,为专业领域翻译提供高质量解决方案。

机器翻译术语管理大语言模型MarianMT翻译记忆后编辑TBX神经机器翻译领域适应
发布时间 2026/06/03 18:45最近活动 2026/06/03 18:58预计阅读 4 分钟
领域术语感知的机器翻译:融合MarianMT与大语言模型的后编辑系统
1

章节 01

导读 / 主楼:领域术语感知的机器翻译:融合MarianMT与大语言模型的后编辑系统

本项目实现了arXiv:2310.14451论文中的术语感知机器翻译流水线,结合MarianMT神经机器翻译、翻译记忆库和大语言模型后编辑技术,支持TBX术语库导出,为专业领域翻译提供高质量解决方案。

3

章节 03

研究背景

机器翻译(Machine Translation, MT)技术在过去几年取得了长足进步,神经机器翻译(NMT)系统如Google Translate、DeepL等在日常文本翻译上已达到相当高的质量。然而,专业领域翻译——如法律、医学、技术文档等——仍然面临严峻挑战。

4

章节 04

领域翻译的核心难题

术语一致性

专业领域充斥着大量特定术语,这些术语往往有严格的定义和固定的译法。例如:

  • 法律术语:"jurisdiction"必须译为"管辖权"而非"司法"
  • 医学术语:"myocardial infarction"必须译为"心肌梗死"而非字面直译
  • 技术术语:"machine learning"在中文语境下通常译为"机器学习"

传统NMT系统往往难以保证术语翻译的一致性和准确性。

领域知识依赖

专业翻译不仅需要语言能力,还需要领域知识。同样的词汇在不同领域可能有不同含义:

  • "cell"在生物学中是"细胞",在电子学中是"电池"
  • "port"在计算机中是"端口",在航海中是"港口"

翻译记忆的价值

专业翻译实践中,翻译记忆库(Translation Memory, TM)是重要资产。它存储了过往翻译的句对,新的翻译任务可以复用已有成果,确保一致性并提高效率。


5

章节 05

项目概述

本项目是论文《Domain Terminology Integration into Machine Translation: Leveraging Large Language Models》的开源实现,构建了一个术语感知的机器翻译流水线,创新性地结合了三种技术:

  1. MarianMT神经机器翻译:提供基础翻译能力
  2. 翻译记忆库:复用历史翻译成果
  3. 大语言模型后编辑:智能优化术语使用和译文质量
6

章节 06

系统架构

整个流水线分为三个阶段:

源文本 → [预处理和术语识别] → [MarianMT翻译] → [翻译记忆匹配] → [LLM后编辑] → 最终译文
                ↓                        ↓                  ↓
         术语库(TBX)              候选译文          术语一致性检查

7

章节 07

1. MarianMT神经机器翻译

MarianMT是微软开发的神经机器翻译框架,以其高效和高质量著称。本项目使用MarianMT作为基础翻译引擎:

特点

  • 开源可定制:可以针对特定领域进行微调
  • 高性能:C++实现,推理速度快
  • 多语言支持:支持上百种语言对

领域适应

本项目的关键创新之一是对MarianMT进行领域适应:

  • 使用领域平行语料进行微调
  • 注入术语约束到解码过程
  • 结合翻译记忆进行检索增强翻译
8

章节 08

2. 术语库与TBX标准

TBX(TermBase eXchange)

TBX是ISO标准(ISO 30042)的术语库交换格式,广泛应用于本地化行业。本项目支持TBX导入导出,确保术语库的可移植性和标准化。

TBX术语条目示例:

<conceptEntry id="c1">
  <langSec xml:lang="en">
    <termSec>
      <term>machine learning</term>
      <termNote type="partOfSpeech">noun</termNote>
    </termSec>
  </langSec>
  <langSec xml:lang="zh">
    <termSec>
      <term>机器学习</term>
      <termNote type="partOfSpeech">名词</termNote>
    </termSec>
  </langSec>
</conceptEntry>

术语识别与标注

系统在翻译前对源文本进行术语识别:

  • 使用术语库匹配识别专业术语
  • 标注术语位置和类型
  • 为后续翻译提供术语约束