谢乾坤|青南 ·

一日一技：使用大模型实现全自动爬虫（一）

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

文章介绍了如何使用大模型实现全自动爬虫。通过输入起始URL，爬虫能自动抓取博客的标题、正文、作者和发布时间。使用httpx库，无需模拟浏览器。解析逻辑包括提取详情页URL和分页链接，利用GLM-4-Plus完成。未来计划引入模拟浏览器应对反爬虫和滚动加载问题。

🎯

🏷️

世界最差程序员变得主动：构建一个破解排行榜的AI
一位自称“世界最差程序员”的新手，通过AI工具学习编程，成功创建了一个连接公司知识库的代理，帮助他在内部排行榜上获得第一名。尽管编程仍然困难，但这个项目让...
再见面板：Debian构建WordPress
任务要求：使用Debian纯命令行构建自己的WordPress网站，并通过一些方法支持http://linli […] 再见面板：Debian构建Word...
欢迎参加2026年6月9日的PHPverse活动
JetBrains PHPverse – a community-inspired professional event for PHP develope...
安博瑞克的新款旋转屏手持游戏机起售价低于100美元
Following its sliding screen handheld that debuted last June with a design th...
这些智能眼镜都没什么用
智能眼镜虽然时尚、舒适且功能强大，但尚未实现预期的生活改变。它们提供便利，如导航和信息显示，但大多数AI功能仍不够实用，隐私问题也令人担忧。用户对这些设备...
Christophe Pettus: After pgBackRest
pgBackRest is now unmaintained. If you were running pgBackRest in production ...