💡
原文中文,约1100字,阅读约需3分钟。
📝
内容提要
本文介绍了在爬虫开发中,有些网站会把数据以JSON的形式通过<script>标签放到页面源代码中,但直接从网页上复制JSON会出现反斜杠问题,导致正则表达式提取出来的JSON不合法。解决方法有手动修改JSON里面的反斜杠、在三引号前加上r或把HTML写到文件里面。建议直接使用Requests请求网页或通过读文件的形式来读HTML,这样Python能自动处理好反斜杠的问题。
🎯
关键要点
-
一些网站通过<script>标签将数据以JSON形式放入页面源代码中。
-
直接复制网页上的JSON可能会导致反斜杠问题,导致提取的JSON不合法。
-
使用正则表达式提取的JSON可能会出现引号冲突,导致JSON不合法。
-
解决反斜杠问题的方法有三种:手动修改反斜杠、在三引号前加上r、将HTML写入文件并通过文件读取。
-
建议使用Requests请求网页或通过读文件的方式来处理HTML,以避免反斜杠问题。
➡️