对句级双语的恢复文档注释

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们通过重建大规模数据集并引入文档级过滤技术,改进了德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的翻译质量。我们的方法偏好于与上下文一致的翻译,而不是句级翻译。通过在更长的上下文上训练模型,我们证明了文档级翻译的改进。我们将数据集和模型发布给社区使用。

🎯

关键要点

  • 重建了德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的三个大规模数据集。
  • 引入了文档级过滤技术,替代传统的双语过滤方法。
  • 该方法偏好与上下文一致的翻译,而非句级翻译。
  • 在更长的上下文上训练模型,证明了文档级翻译的改进。
  • 发布了数据集ParaDocs和生成的模型供社区使用。
➡️

继续阅读