网络挖掘类似于在互联网上淘金,通过分析网页、链接和用户行为提取有用信息。它包括内容挖掘、结构挖掘和使用挖掘三类,旨在识别网页布局、链接结构和多媒体数据,自动分类文档并分析用户行为,实现分布式数据挖掘。
本文分析了两种低资源语言的网络挖掘语料库质量,并评估了排名语料库的不同部分。研究发现,不同部分的语料库质量存在差异,且在不同语言和数据集间有变化。此外,研究还发现,使用最高排名部分训练的神经机器翻译模型在某些网络挖掘数据集上与人工策划的数据集媲美。
完成下面两步后,将自动完成登录并继续当前操作。