六虎 ·

手刃一个善意的小爬虫（三），使用xpath解析，包括常用处理技巧

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

本文介绍了使用lxml库进行xpath入门练习的方法，包括找到ul标签中的所有文本内容、通过索引找到ul标签中的百度、找到ol标签下href属性为dapao的文本值、找到ol标签下a标签中所有的文本值、找到ol标签下a标签中所有href属性的值等。同时还介绍了etree.parse和etree.HTML的区别，并给出了爬取猪八戒网站信息和处理cookie登录小说网、处理防盗链问题爬取梨视频下载地址的案例实战。最后总结了使用xpath进行定位的基础知识。

🎯

关键要点

安装lxml库并导入：pip install lxml，from lxml import etree
练习一：使用xpath找到ul标签中的所有文本内容
练习二：通过索引找到ul标签中的百度
练习三：找到ol标签下href属性为dapao的文本值
练习四：找到ol标签下a标签中所有的文本值
练习五：找到ol标签下a标签中所有href属性的值
技巧补充：使用浏览器检查元素并复制xpath
etree.parse和etree.HTML的区别：前者解析标准网页格式，后者处理不规范的html数据
案例实战：爬取猪八戒网站的信息
处理cookie登录小说网的步骤：登录获取cookie，使用session请求书架内容
处理防盗链问题爬取梨视频下载地址的步骤：获取contID，修整srcUrl，下载视频
结语：掌握xpath定位有助于爬虫解析，鼓励继续学习

❓

延伸问答

如何安装lxml库以使用xpath？

使用命令pip install lxml进行安装。

如何使用xpath找到ul标签中的所有文本内容？

可以使用tree.xpath('/html/body/ul/li/a/text()')来获取ul标签中的所有文本。

etree.parse和etree.HTML有什么区别？

etree.parse用于解析标准网页格式，etree.HTML用于处理不规范的html数据。

如何处理cookie以登录小说网并爬取数据？

需要先登录获取cookie，然后使用session请求书架的内容。

如何爬取梨视频的下载地址？

需要获取contID，修整srcUrl，然后下载视频。

使用xpath进行定位有什么重要性？

掌握xpath定位有助于在爬虫解析时更有效地提取数据。