Python 的 requests 库在互联网开发中简化了许多操作,但随着异步编程和 HTTP/2 的发展,逐渐显得不足。httpx 库旨在现代化 requests,几乎完全兼容其 API,并原生支持异步编程,使得高效的异步请求变得简单。
异步编程在Python中愈发重要,特别是使用HTTPX库进行异步HTTP请求。异步代码可以在等待结果时不阻塞其他代码,从而提升效率。示例代码展示了如何使用async和await关键字进行异步请求,并比较了异步与同步请求的性能,结果表明异步请求显著提高了处理速度。
httpx库是比requests库更先进的HTTP客户端,支持同步和异步操作。httpx的Client比requests的Session更高效,能够重用连接,提升性能。文档丰富,易于学习,适合现代应用开发。
文章介绍了如何使用大模型实现全自动爬虫。通过输入起始URL,爬虫能自动抓取博客的标题、正文、作者和发布时间。使用httpx库,无需模拟浏览器。解析逻辑包括提取详情页URL和分页链接,利用GLM-4-Plus完成。未来计划引入模拟浏览器应对反爬虫和滚动加载问题。
在py3中,可以使用httpx进行同步/异步混合调用。如果想在async/await中使用该代码,需要将方法改为async def。如果想让同步/异步的库都能调用该代码,可以将其抽象出来,使用httpx.Request进行逻辑和transport解耦。
完成下面两步后,将自动完成登录并继续当前操作。