章节 01
导读 / 主楼:领域术语感知的机器翻译:融合MarianMT与大语言模型的后编辑系统
本项目实现了arXiv:2310.14451论文中的术语感知机器翻译流水线,结合MarianMT神经机器翻译、翻译记忆库和大语言模型后编辑技术,支持TBX术语库导出,为专业领域翻译提供高质量解决方案。
正文
本项目实现了arXiv:2310.14451论文中的术语感知机器翻译流水线,结合MarianMT神经机器翻译、翻译记忆库和大语言模型后编辑技术,支持TBX术语库导出,为专业领域翻译提供高质量解决方案。
章节 01
本项目实现了arXiv:2310.14451论文中的术语感知机器翻译流水线,结合MarianMT神经机器翻译、翻译记忆库和大语言模型后编辑技术,支持TBX术语库导出,为专业领域翻译提供高质量解决方案。
章节 02
章节 03
机器翻译(Machine Translation, MT)技术在过去几年取得了长足进步,神经机器翻译(NMT)系统如Google Translate、DeepL等在日常文本翻译上已达到相当高的质量。然而,专业领域翻译——如法律、医学、技术文档等——仍然面临严峻挑战。
章节 04
专业领域充斥着大量特定术语,这些术语往往有严格的定义和固定的译法。例如:
传统NMT系统往往难以保证术语翻译的一致性和准确性。
专业翻译不仅需要语言能力,还需要领域知识。同样的词汇在不同领域可能有不同含义:
专业翻译实践中,翻译记忆库(Translation Memory, TM)是重要资产。它存储了过往翻译的句对,新的翻译任务可以复用已有成果,确保一致性并提高效率。
章节 05
本项目是论文《Domain Terminology Integration into Machine Translation: Leveraging Large Language Models》的开源实现,构建了一个术语感知的机器翻译流水线,创新性地结合了三种技术:
章节 06
整个流水线分为三个阶段:
源文本 → [预处理和术语识别] → [MarianMT翻译] → [翻译记忆匹配] → [LLM后编辑] → 最终译文
↓ ↓ ↓
术语库(TBX) 候选译文 术语一致性检查
章节 07
MarianMT是微软开发的神经机器翻译框架,以其高效和高质量著称。本项目使用MarianMT作为基础翻译引擎:
本项目的关键创新之一是对MarianMT进行领域适应:
章节 08
TBX是ISO标准(ISO 30042)的术语库交换格式,广泛应用于本地化行业。本项目支持TBX导入导出,确保术语库的可移植性和标准化。
TBX术语条目示例:
<conceptEntry id="c1">
<langSec xml:lang="en">
<termSec>
<term>machine learning</term>
<termNote type="partOfSpeech">noun</termNote>
</termSec>
</langSec>
<langSec xml:lang="zh">
<termSec>
<term>机器学习</term>
<termNote type="partOfSpeech">名词</termNote>
</termSec>
</langSec>
</conceptEntry>
系统在翻译前对源文本进行术语识别: