利用众包进行网络挖掘的日中平行语料库
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
通过众包方法从双语网站收集了10,000个URL对,创建了一个包含4.6M个句对的日语-中文平行语料库。使用1.2M条高质量的句对训练了一个平行语料库过滤器,准确度与全球网络挖掘的语料库相当。证实了使用众包进行平行数据的网络挖掘是可行的。
🎯
关键要点
- 通过众包方法收集了超过10,000个URL对,创建了日语-中文平行语料库。
- 该平行语料库包含4.6M个句对。
- 使用160K个词对的双语词典进行文档和句子对齐。
- 基于1.2M条高质量句对训练了平行语料库过滤器。
- 模型的翻译准确度与全球网络挖掘的CCMatrix相当,验证了众包方法的可行性。
➡️