DEV Community ·

轮询获利

💡 原文英文，约1900词，阅读约需7分钟。

📝

内容提要

这篇文章讲述了作者如何使用Python脚本模拟浏览器行为来发送HTTP请求，并解析HTML页面中的数据。作者使用requests模块发送请求，并使用HTMLParser模块解析HTML。作者还介绍了如何将字符串转换为字典，并使用JSON解析数据。最后，作者将获取到的数据存储在字典中，并定时进行轮询。

🎯

关键要点

作者使用Python脚本模拟浏览器行为发送HTTP请求。
使用requests模块发送请求，使用HTMLParser模块解析HTML。
通过开发者工具检查HTTP请求和响应的头部信息。
将Cookies头字符串转换为Python字典以简化代码。
解析HTML时，找到包含所需数据的data-react-props属性。
使用HTMLParser模块处理HTML标签，提取所需数据。
将获取的数据存储在字典中，并定时进行轮询。
使用集合跟踪当前项目，比较新旧项目状态。
处理项目状态变化时，打印出新增和移除的项目。

❓

延伸问答

如何使用Python脚本模拟浏览器行为发送HTTP请求？

可以使用requests模块发送HTTP请求，并通过开发者工具检查请求和响应的头部信息。

如何解析HTML页面中的数据？

可以使用HTMLParser模块来解析HTML，并提取所需的数据，例如通过data-react-props属性。

如何将字符串转换为Python字典？

可以通过自定义函数将Cookies头字符串分割并转换为字典形式，以便于后续使用。

如何定时进行数据轮询？

可以使用Timer类设置定时任务，例如每5分钟调用一次数据获取函数。

如何跟踪项目状态变化？

可以使用集合来跟踪当前项目，并比较新旧项目状态，以识别新增和移除的项目。

在处理HTML时可能遇到哪些问题？

处理HTML时可能会遇到解析错误或格式变化的问题，这可能导致脚本失效。