正文

领域术语感知的机器翻译：融合MarianMT与大语言模型的后编辑系统

本项目实现了arXiv:2310.14451论文中的术语感知机器翻译流水线，结合MarianMT神经机器翻译、翻译记忆库和大语言模型后编辑技术，支持TBX术语库导出，为专业领域翻译提供高质量解决方案。

机器翻译术语管理大语言模型MarianMT翻译记忆后编辑TBX神经机器翻译领域适应

发布时间 2026/06/03 18:45最近活动 2026/06/03 18:58预计阅读 4 分钟

章节 01

导读 / 主楼：领域术语感知的机器翻译：融合MarianMT与大语言模型的后编辑系统

章节 02

原作者与来源

原作者/维护者: FatmaElMahdi1000
来源平台: GitHub
原始标题: Domain-MT-LLM-postediting-Paper-Research-Implementation-
原始链接: https://github.com/FatmaElMahdi1000/Domain-MT-LLM-postediting-Paper-Research-Implementation-
参考论文: Domain Terminology Integration into Machine Translation: Leveraging Large Language Models (arXiv:2310.14451)
发布时间: 2026年6月3日

章节 03

研究背景

机器翻译（Machine Translation, MT）技术在过去几年取得了长足进步，神经机器翻译（NMT）系统如Google Translate、DeepL等在日常文本翻译上已达到相当高的质量。然而，专业领域翻译——如法律、医学、技术文档等——仍然面临严峻挑战。

章节 04

领域翻译的核心难题

术语一致性

专业领域充斥着大量特定术语，这些术语往往有严格的定义和固定的译法。例如：

法律术语："jurisdiction"必须译为"管辖权"而非"司法"
医学术语："myocardial infarction"必须译为"心肌梗死"而非字面直译
技术术语："machine learning"在中文语境下通常译为"机器学习"

传统NMT系统往往难以保证术语翻译的一致性和准确性。

领域知识依赖

专业翻译不仅需要语言能力，还需要领域知识。同样的词汇在不同领域可能有不同含义：

"cell"在生物学中是"细胞"，在电子学中是"电池"
"port"在计算机中是"端口"，在航海中是"港口"

翻译记忆的价值

专业翻译实践中，翻译记忆库（Translation Memory, TM）是重要资产。它存储了过往翻译的句对，新的翻译任务可以复用已有成果，确保一致性并提高效率。

章节 05

项目概述

本项目是论文《Domain Terminology Integration into Machine Translation: Leveraging Large Language Models》的开源实现，构建了一个术语感知的机器翻译流水线，创新性地结合了三种技术：

MarianMT神经机器翻译：提供基础翻译能力
翻译记忆库：复用历史翻译成果
大语言模型后编辑：智能优化术语使用和译文质量

章节 06

系统架构

整个流水线分为三个阶段：

源文本 → [预处理和术语识别] → [MarianMT翻译] → [翻译记忆匹配] → [LLM后编辑] → 最终译文
                ↓                        ↓                  ↓
         术语库(TBX)              候选译文          术语一致性检查

章节 07

1. MarianMT神经机器翻译

MarianMT是微软开发的神经机器翻译框架，以其高效和高质量著称。本项目使用MarianMT作为基础翻译引擎：

特点

开源可定制：可以针对特定领域进行微调
高性能：C++实现，推理速度快
多语言支持：支持上百种语言对

领域适应

本项目的关键创新之一是对MarianMT进行领域适应：

使用领域平行语料进行微调
注入术语约束到解码过程
结合翻译记忆进行检索增强翻译

章节 08

2. 术语库与TBX标准

TBX（TermBase eXchange）

TBX是ISO标准（ISO 30042）的术语库交换格式，广泛应用于本地化行业。本项目支持TBX导入导出，确保术语库的可移植性和标准化。

TBX术语条目示例：

<conceptEntry id="c1">
  <langSec xml:lang="en">
    <termSec>
      <term>machine learning</term>
      <termNote type="partOfSpeech">noun</termNote>
    </termSec>
  </langSec>
  <langSec xml:lang="zh">
    <termSec>
      <term>机器学习</term>
      <termNote type="partOfSpeech">名词</termNote>
    </termSec>
  </langSec>
</conceptEntry>

术语识别与标注

系统在翻译前对源文本进行术语识别：

使用术语库匹配识别专业术语
标注术语位置和类型
为后续翻译提供术语约束