BriefGPT - AI 论文速递 ·

古代韩国档案翻译：基于统计短语对齐、LLM 上下文学习和跨方法论方法的比较分析

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文综述了文档级机器翻译的研究，比较了不同方法的表现，发现基于单语文档的回译方法效果显著。同时，提出了古汉语与现代汉语的对齐方法，创建了大规模双语语料库，并探讨了文化知识在机器翻译中的应用，提出了新的数据筛选和提示策略，显著提升了翻译质量。

🎯

❓

基于单语文档的回译方法在文档级评估和人类评估中表现显著，效果与复杂模型相当。

通过提出一种从句对齐方法，结合词汇和统计信息，创建了包含124万个双语对的大规模语料库。

提出新的数据筛选方法和提示策略，以构建具有文化相关性的平行语料库，提升翻译质量。

该任务帮助解决语言困境和信息缺失，实验证明其在生成高质量翻译输出方面有效。

通过多阶段训练，包括二次预训练和监督微调，显著提高翻译性能。

提示类型、模型选择和语言特定因素的不确定性限制了翻译系统的效果。

🏷️