手刃一个善意的小爬虫(三),使用xpath解析,包括常用处理技巧
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
本文介绍了使用lxml库进行xpath入门练习的方法,包括找到ul标签中的所有文本内容、通过索引找到ul标签中的百度、找到ol标签下href属性为dapao的文本值、找到ol标签下a标签中所有的文本值、找到ol标签下a标签中所有href属性的值等。同时还介绍了etree.parse和etree.HTML的区别,并给出了爬取猪八戒网站信息和处理cookie登录小说网、处理防盗链问题爬取梨视频下载地址的案例实战。最后总结了使用xpath进行定位的基础知识。
🎯
关键要点
- 安装lxml库并导入:pip install lxml,from lxml import etree
- 练习一:使用xpath找到ul标签中的所有文本内容
- 练习二:通过索引找到ul标签中的百度
- 练习三:找到ol标签下href属性为dapao的文本值
- 练习四:找到ol标签下a标签中所有的文本值
- 练习五:找到ol标签下a标签中所有href属性的值
- 技巧补充:使用浏览器检查元素并复制xpath
- etree.parse和etree.HTML的区别:前者解析标准网页格式,后者处理不规范的html数据
- 案例实战:爬取猪八戒网站的信息
- 处理cookie登录小说网的步骤:登录获取cookie,使用session请求书架内容
- 处理防盗链问题爬取梨视频下载地址的步骤:获取contID,修整srcUrl,下载视频
- 结语:掌握xpath定位有助于爬虫解析,鼓励继续学习
➡️