网络挖掘类似于在互联网上淘金,通过分析网页、链接和用户行为提取有用信息。它包括内容挖掘、结构挖掘和使用挖掘三类,旨在识别网页布局、链接结构和多媒体数据,自动分类文档并分析用户行为,实现分布式数据挖掘。
通过众包方法从双语网站收集了10,000个URL对,创建了一个包含4.6M个句对的日语-中文平行语料库。使用1.2M条高质量的句对训练了一个平行语料库过滤器,准确度与全球网络挖掘的语料库相当。证实了使用众包进行平行数据的网络挖掘是可行的。
本文分析了两种低资源语言的网络挖掘语料库质量,并评估了排名语料库的不同部分。研究发现,不同部分的语料库质量存在差异,且在不同语言和数据集间有变化。此外,研究还发现,使用最高排名部分训练的神经机器翻译模型在某些网络挖掘数据集上与人工策划的数据集媲美。
完成下面两步后,将自动完成登录并继续当前操作。