古代韩国档案翻译:基于统计短语对齐、LLM 上下文学习和跨方法论方法的比较分析

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文综述了文档级机器翻译的研究,比较了不同方法的表现,发现基于单语文档的回译方法效果显著。同时,提出了古汉语与现代汉语的对齐方法,创建了大规模双语语料库,并探讨了文化知识在机器翻译中的应用,提出了新的数据筛选和提示策略,显著提升了翻译质量。

🎯

关键要点

  • 文档级机器翻译的文献综述对比了各种方法的表现,发现基于单语文档的回译方法效果显著。
  • 提出了一种基于古汉语和现代汉语的从句对齐方法,创建了包含124万个双语对的大规模语料库。
  • 研究了如何将文化知识应用于机器翻译,提出新的数据筛选和提示策略,显著提升翻译质量。
  • 提出了一种多标签预测任务,解决翻译古代中文文本的语言困境,实验证明该框架有效。
  • 介绍了历史文本规范化研究,比较了不同规范化技术的效果,并提供了公开的数据集和脚本。
  • 提出了增强大型语言模型翻译能力的新范式,通过多阶段训练显著提高翻译性能。
  • 研究了低资源语言到高资源语言的翻译能力,强调了提示类型和模型选择的重要性。
  • 提出了一种基于5-gram KenLM语言模型的缩放相似性分数的方法,提高了机器翻译质量。
  • 基于多语言预训练模型的词语对齐方法,通过交叉注意力模块提高了词语对齐质量。

延伸问答

文档级机器翻译的主要研究发现是什么?

基于单语文档的回译方法在文档级评估和人类评估中表现显著,效果与复杂模型相当。

如何创建古汉语与现代汉语的双语语料库?

通过提出一种从句对齐方法,结合词汇和统计信息,创建了包含124万个双语对的大规模语料库。

文化知识在机器翻译中如何应用?

提出新的数据筛选方法和提示策略,以构建具有文化相关性的平行语料库,提升翻译质量。

多标签预测任务在翻译古代中文文本中有什么作用?

该任务帮助解决语言困境和信息缺失,实验证明其在生成高质量翻译输出方面有效。

如何增强大型语言模型的翻译能力?

通过多阶段训练,包括二次预训练和监督微调,显著提高翻译性能。

低资源语言翻译的挑战是什么?

提示类型、模型选择和语言特定因素的不确定性限制了翻译系统的效果。

➡️

继续阅读