如何 Debug 爬虫无法成功爬取的问题

如何 Debug 爬虫无法成功爬取的问题

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

在编写爬虫代码时,遇到浏览器访问正常但代码无法爬取的问题。解决方法是通过复制浏览器行为,找到关键参数。使用Chrome DevTools获取请求,通过二分法测试Header,逐步删除并发送cURL,直到找到影响结果的Header。将这些逻辑放入代码或单元测试中,以便快速发现问题。

🎯

关键要点

  • 编写爬虫时,常遇到浏览器正常但代码无法爬取的问题。
  • 解决方法是复制浏览器行为,找到关键参数。
  • 使用Chrome DevTools获取请求,复制为cURL格式。
  • 分析cURL命令中的Header,找出可能导致爬虫被拒绝的Header。
  • 采用二分法测试Header,逐步删除并发送cURL,定位关键Header。
  • 将找到的逻辑放入代码或单元测试中,以便快速发现问题。
➡️

继续阅读