Terrarum::异世界丨居正博客 ·

JavaScript 逆向遇到请求加密，直接把爬虫代码注入到浏览器中执行的技巧

💡 原文中文，约7500字，阅读约需18分钟。

📝

内容提要

本文介绍了如何编写爬虫以获取医疗网站的文章。首先，通过浏览器抓包获取疾病分类和文章列表的请求。由于请求参数加密，建议直接在浏览器中使用JavaScript调用ajax函数进行爬取，并通过本地HTTP服务器存储数据。爬虫代码使用Promise和async/await处理异步请求，并实现了分页和断点续传机制。最后，提出了将复杂爬虫逻辑与浏览器交互的方案。

🎯

关键要点

本文介绍了如何编写爬虫以获取医疗网站的文章。
爬虫的目标是爬取每个疾病分科下的所有文章。
使用浏览器控制台抓包获取疾病分类和文章列表的请求。
请求参数加密，建议使用JavaScript调用ajax函数进行爬取。
通过本地HTTP服务器存储数据，解决数据存储问题。
爬虫代码使用Promise和async/await处理异步请求。
实现了分页和断点续传机制，确保爬虫的稳定性。
提出了将复杂爬虫逻辑与浏览器交互的方案，使用WebSocket进行请求和响应的处理。

🏷️

继续阅读

[开启方法] 谷歌浏览器最新版终于实验性支持垂直标签栏体验非常不错
谷歌浏览器在Chrome v146.0.7680.72版本中实验性支持垂直标签栏，用户可将标签栏移至左侧，并具备展开、折叠、固定和分组等功能，使用体验良好。
12小时掌握大型语言模型的微调技巧
该课程帮助学员定制大型语言模型（LLM），内容涵盖参数高效微调、强化学习、行业工具和多模态AI，适合希望深入了解AI系统的学习者。
5款免费AI工具帮助理解代码和生成文档
理解新代码库可能很困难，但AI工具如Google Code Wiki、DeepWiki、ExplainGitHub、GitDocs AI和GitSumma...
人工智能代码审查的伦理
随着AI技术的发展，84%的开发者已在使用或计划使用AI工具进行代码审查。虽然AI工具提高了审查效率和一致性，但也引发了责任和伦理问题，开发者需谨慎评估A...
华为获ISO/IEC 42001人工智能管理体系认证证书
华为在巴塞罗那全球通信展期间获得SGS颁发的ISO/IEC 42001人工智能管理体系认证，涵盖五大核心业务及多家子公司，标志着其AI治理和合规达到国际先进水平。
在AKS上大规模运行Ray
微软Azure Kubernetes Service团队发布了Anyscale管理的Ray服务运行指导，解决了GPU容量限制、ML存储分散和凭证过期问题。...

JavaScript 逆向遇到请求加密，直接把爬虫代码注入到浏览器中执行的技巧

内容提要

关键要点

标签

继续阅读