💡
原文英文,约700词,阅读约需3分钟。
📝
内容提要
网络挖掘类似于在互联网上淘金,通过分析网页、链接和用户行为提取有用信息。它包括内容挖掘、结构挖掘和使用挖掘三类,旨在识别网页布局、链接结构和多媒体数据,自动分类文档并分析用户行为,实现分布式数据挖掘。
🎯
关键要点
- 网络挖掘类似于在互联网上淘金,通过分析网页、链接和用户行为提取有用信息。
- 网络挖掘分为三大类:内容挖掘、结构挖掘和使用挖掘。
- 内容挖掘涉及提取文本、图像、音频和视频。
- 结构挖掘分析网页布局和超链接图。
- 使用挖掘发现用户点击流和日志中的模式。
- 网页布局挖掘通过分析HTML元素和CSS位置提取主要内容。
- 网页链接结构挖掘将页面视为城市,超链接视为道路,以发现权威、中心和社区。
- 多媒体数据挖掘自动处理图像、音频和视频以发现模式。
- 自动分类网页文档使用关键词和布局线索自动标记网页或文档。
- 网页使用挖掘分析服务器日志和点击流以揭示浏览习惯。
- 分布式数据挖掘允许在多个服务器上分析数据,而无需将所有数据移动到一个地方。
❓
延伸问答
什么是网络挖掘?
网络挖掘是应用数据挖掘技术于互联网,通过分析网页、链接和用户行为提取有用信息。
网络挖掘分为哪三类?
网络挖掘分为内容挖掘、结构挖掘和使用挖掘三类。
内容挖掘主要涉及哪些内容?
内容挖掘主要涉及提取文本、图像、音频和视频。
结构挖掘是如何分析网页的?
结构挖掘通过分析网页的布局和超链接图,识别网页的主要内容和导航结构。
使用挖掘的目的是什么?
使用挖掘的目的是发现用户点击流和日志中的模式,以揭示用户的浏览习惯。
分布式数据挖掘有什么优势?
分布式数据挖掘允许在多个服务器上分析数据,而无需将所有数据移动到一个地方,从而提高效率。
➡️