通过众包方法从双语网站收集了10,000个URL对,创建了一个包含4.6M个句对的日语-中文平行语料库。使用1.2M条高质量的句对训练了一个平行语料库过滤器,准确度与全球网络挖掘的语料库相当。证实了使用众包进行平行数据的网络挖掘是可行的。
完成下面两步后,将自动完成登录并继续当前操作。