💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
在编写爬虫代码时,遇到浏览器访问正常但代码无法爬取的问题。解决方法是通过复制浏览器行为,找到关键参数。使用Chrome DevTools获取请求,通过二分法测试Header,逐步删除并发送cURL,直到找到影响结果的Header。将这些逻辑放入代码或单元测试中,以便快速发现问题。
🎯
关键要点
- 编写爬虫时,常遇到浏览器正常但代码无法爬取的问题。
- 解决方法是复制浏览器行为,找到关键参数。
- 使用Chrome DevTools获取请求,复制为cURL格式。
- 分析cURL命令中的Header,找出可能导致爬虫被拒绝的Header。
- 采用二分法测试Header,逐步删除并发送cURL,定位关键Header。
- 将找到的逻辑放入代码或单元测试中,以便快速发现问题。
➡️