JavaScript 逆向遇到请求加密,直接把爬虫代码注入到浏览器中执行的技巧
本文介绍了如何编写爬虫以获取医疗网站的文章。首先,通过浏览器抓包获取疾病分类和文章列表的请求。由于请求参数加密,建议直接在浏览器中使用JavaScript调用ajax函数进行爬取,并通过本地HTTP服务器存储数据。爬虫代码使用Promise和async/await处理异步请求,并实现了分页和断点续传机制。最后,提出了将复杂爬虫逻辑与浏览器交互的方案。
原文中文,约7500字,阅读约需18分钟。