小红花·文摘

通过众包方法从双语网站收集了10,000个URL对，创建了一个包含4.6M个句对的日语-中文平行语料库。使用1.2M条高质量的句对训练了一个平行语料库过滤器，准确度与全球网络挖掘的语料库相当。证实了使用众包进行平行数据的网络挖掘是可行的。