DEV Community ·

我更新了用于获取BoardGameGeek数据的Python脚本

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

这篇文章介绍了一个脚本，用于从BoardGameGeek API批量获取数据并存储到CSV文件。更新后的脚本通过批量请求多个ID，提高了效率。每次请求可返回约800个项目的数据，包括游戏名称、ID、类型、评分等信息。脚本使用Python库如BeautifulSoup、pandas和requests，并提供错误处理和数据保存功能。

🎯

关键要点

该脚本用于从BoardGameGeek API批量获取数据并存储到CSV文件。
更新后的脚本通过批量请求多个ID，提高了效率，每次请求可返回约800个项目的数据。
获取的数据包括游戏名称、ID、类型、评分、重量、出版年份、最小和最大玩家人数、最小和最大游戏时间、最小年龄、拥有者、类别、机制、设计师、艺术家和出版商等信息。
脚本使用Python库如BeautifulSoup、pandas和requests，并提供错误处理和数据保存功能。
定义了请求的URL头部和请求之间的暂停时间，设置了起始ID范围、最大范围和批量大小。
主循环根据批量大小生成ID字符串，并将其附加到请求的URL中，处理响应并将数据保存到CSV文件。
在请求过程中，如果发生错误，脚本会继续处理下一个批次。
使用pandas库预览CSV文件中的前几行记录。

🔎

延伸解读

脚本效率提升

更新后的脚本通过批量请求多个游戏ID，显著提高了数据获取的效率。每次请求可返回约800个项目的数据，避免了逐个请求的低效，特别适合处理大量数据时使用。

数据完整性与错误处理

脚本在获取数据时考虑了错误处理机制，即使在请求过程中出现错误，也能继续处理下一个批次。这种设计确保了数据的完整性，减少了因单次请求失败而导致的数据丢失风险。

使用Python库的优势

该脚本利用了BeautifulSoup、pandas和requests等Python库，简化了数据解析和存储过程。使用这些库可以提高代码的可读性和维护性，同时也能方便地进行数据分析和处理。

❓

延伸问答

这个Python脚本的主要功能是什么？

该脚本用于从BoardGameGeek API批量获取数据并存储到CSV文件。

更新后的脚本如何提高数据获取的效率？

更新后的脚本通过批量请求多个ID，每次请求可返回约800个项目的数据，从而提高了效率。

脚本获取的数据包含哪些信息？

获取的数据包括游戏名称、ID、类型、评分、重量、出版年份、玩家人数、游戏时间、最小年龄、拥有者、类别、机制、设计师、艺术家和出版商等信息。

脚本使用了哪些Python库？

脚本使用了BeautifulSoup、pandas和requests等Python库。

如何处理请求过程中出现的错误？

如果请求过程中发生错误，脚本会继续处理下一个批次，确保数据的获取不受影响。

如何将获取的数据保存到CSV文件？

脚本定义了一个保存函数，将获取的数据以字典形式写入CSV文件，并在文件为空时写入表头。

🏷️