对句级双语的恢复文档注释
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们通过重建大规模数据集并引入文档级过滤技术,改进了德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的翻译质量。我们的方法偏好于与上下文一致的翻译,而不是句级翻译。通过在更长的上下文上训练模型,我们证明了文档级翻译的改进。我们将数据集和模型发布给社区使用。
🎯
关键要点
- 重建了德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的三个大规模数据集。
- 引入了文档级过滤技术,替代传统的双语过滤方法。
- 该方法偏好与上下文一致的翻译,而非句级翻译。
- 在更长的上下文上训练模型,证明了文档级翻译的改进。
- 发布了数据集ParaDocs和生成的模型供社区使用。
➡️