DEV Community ·

用于抓取维基百科奥斯卡奖名单的JavaScript爬虫

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文介绍了如何使用JavaScript的cheerio库从维基百科抓取奥斯卡获奖者数据，并将其保存为CSV文件。首先安装所需的包，接着加载HTML并提取表格数据，最后以分号为分隔符保存为academy_awards.csv文件。

🎯

🔎

使用JavaScript的cheerio库抓取维基百科数据，可以帮助开发者快速获取和分析公开信息。通过这种方式，用户能够轻松提取结构化数据，适用于数据分析、研究或个人项目。

将抓取的数据保存为CSV文件格式，便于后续的数据处理和分析。CSV文件广泛应用于数据科学和数据可视化工具中，用户可以直接导入到Excel或其他数据分析软件中进行进一步操作。

在进行网页抓取时，需注意遵循网站的使用条款和法律法规。维基百科虽然提供开放的数据，但仍需尊重其版权和数据使用政策，确保抓取行为的合法性。

❓

可以使用cheerio库和axios包来抓取数据，首先安装这两个包，然后加载维基百科的奥斯卡获奖电影列表的HTML。

使用fs.writeFileSync将数据保存为academy_awards.csv文件，数据以分号作为分隔符。

遍历DOM，使用$('tbody').each()选择表头元素，并将其文本内容存入theadData数组。

使用的URL是'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films'。

需要安装cheerio和axios这两个包。

使用$('table tr').each()遍历每一行，并将每个单元格的文本内容存入rowData数组。

🏷️