字节的 Midscene.js 是一款支持多模态模型的前端自动化测试插件,适合爬虫开发。它提供三大 API:Action、Query 和 Assert,分别用于执行交互、提取数据和进行断言。用户可通过 Chrome 商店安装和配置,项目成本逐渐降低。
本文介绍了在爬虫开发中,有些网站会把数据以JSON的形式通过<script>标签放到页面源代码中,但直接从网页上复制JSON会出现反斜杠问题,导致正则表达式提取出来的JSON不合法。解决方法有手动修改JSON里面的反斜杠、在三引号前加上r或把HTML写到文件里面。建议直接使用Requests请求网页或通过读文件的形式来读HTML,这样Python能自动处理好反斜杠的问题。
完成下面两步后,将自动完成登录并继续当前操作。