谢乾坤|青南 ·

一日一技：HTML里面提取的JSON怎么解析不了？

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

本文介绍了在爬虫开发中，有些网站会把数据以JSON的形式通过<script>标签放到页面源代码中，但直接从网页上复制JSON会出现反斜杠问题，导致正则表达式提取出来的JSON不合法。解决方法有手动修改JSON里面的反斜杠、在三引号前加上r或把HTML写到文件里面。建议直接使用Requests请求网页或通过读文件的形式来读HTML，这样Python能自动处理好反斜杠的问题。

🎯

关键要点

一些网站通过<script>标签将数据以JSON形式放入页面源代码中。
直接复制网页上的JSON可能会导致反斜杠问题，导致提取的JSON不合法。
使用正则表达式提取的JSON可能会出现引号冲突，导致JSON不合法。
解决反斜杠问题的方法有三种：手动修改反斜杠、在三引号前加上r、将HTML写入文件并通过文件读取。
建议使用Requests请求网页或通过读文件的方式来处理HTML，以避免反斜杠问题。

🏷️

继续阅读

人工智能代理的持续学习
AI的持续学习可分为模型、工具和上下文三个层面。模型层关注权重更新，工具层优化代码，上下文层涉及指令和技能。这些层次的理解有助于构建能够随时间改进的系统。
Los Thuthanaka的《Wak'a》是对去年Pitchfork意外热门的温和延续
这张EP如同从黑暗中浮现的世界。开场曲“Quta”以低沉合成器和蟋蟀鸣叫开场，随后加入吉他旋律和扭曲鼓点。“Wara Wara”既美丽又令人恐惧，声音的压...
2026年4月5日Python中心周刊摘要
本周Python新闻关注代码库和库的改进，包括用值对象替代原始类型以提升代码可靠性，重写20年历史的Akismet Python客户端以支持现代Pytho...
Cursor 的 20 亿美元赌注：IDE 现在是备用选项，而非默认选择
Cursor 3 通过将代理管理控制台作为主要界面，标志着 AI 辅助开发工具的转变，传统 IDE 降级为备用选项，开发者的重心转向管理代理和审查输出，反...
SOUL.md 和 AGENTS.md 到底有什么区别？Agent 配置别再混着写了
配置 Agent 时，应区分 SOUL.md 和 AGENTS.md。SOUL.md 定义 Agent 的人格和行为原则，AGENTS.md 明确其职责和...
OpenClaw如何在4个月内获得350K星标
2025年11月，开源项目OpenClaw在GitHub上线，迅速获得350K星标。它是一个个人AI助手，通过常用聊天应用与用户互动，成功打破了开发者圈子...