一日一技:HTML里面提取的JSON怎么解析不了?
原文中文,约1100字,阅读约需3分钟。发表于: 。我们在开发爬虫的过程中,经常发现有一些网站,会直接把数据以JSON的形式,通过<script>标签放到页面源代码中。如下图所示: 有时候请求URL拿到HTML的过程比较麻烦,有些同学习惯先把HTML复制到代码里面,先把解析的逻辑写好,然后再去开发请求HTML的代码。
本文介绍了在爬虫开发中,有些网站会把数据以JSON的形式通过<script>标签放到页面源代码中,但直接从网页上复制JSON会出现反斜杠问题,导致正则表达式提取出来的JSON不合法。解决方法有手动修改JSON里面的反斜杠、在三引号前加上r或把HTML写到文件里面。建议直接使用Requests请求网页或通过读文件的形式来读HTML,这样Python能自动处理好反斜杠的问题。