手刃一个善意的小爬虫(三),使用xpath解析,包括常用处理技巧

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

本文介绍了使用lxml库进行xpath入门练习的方法,包括找到ul标签中的所有文本内容、通过索引找到ul标签中的百度、找到ol标签下href属性为dapao的文本值、找到ol标签下a标签中所有的文本值、找到ol标签下a标签中所有href属性的值等。同时还介绍了etree.parse和etree.HTML的区别,并给出了爬取猪八戒网站信息和处理cookie登录小说网、处理防盗链问题爬取梨视频下载地址的案例实战。最后总结了使用xpath进行定位的基础知识。

🎯

关键要点

  • 安装lxml库并导入:pip install lxml,from lxml import etree

  • 练习一:使用xpath找到ul标签中的所有文本内容

  • 练习二:通过索引找到ul标签中的百度

  • 练习三:找到ol标签下href属性为dapao的文本值

  • 练习四:找到ol标签下a标签中所有的文本值

  • 练习五:找到ol标签下a标签中所有href属性的值

  • 技巧补充:使用浏览器检查元素并复制xpath

  • etree.parse和etree.HTML的区别:前者解析标准网页格式,后者处理不规范的html数据

  • 案例实战:爬取猪八戒网站的信息

  • 处理cookie登录小说网的步骤:登录获取cookie,使用session请求书架内容

  • 处理防盗链问题爬取梨视频下载地址的步骤:获取contID,修整srcUrl,下载视频

  • 结语:掌握xpath定位有助于爬虫解析,鼓励继续学习

延伸问答

如何安装lxml库以使用xpath?

使用命令pip install lxml进行安装。

如何使用xpath找到ul标签中的所有文本内容?

可以使用tree.xpath('/html/body/ul/li/a/text()')来获取ul标签中的所有文本。

etree.parse和etree.HTML有什么区别?

etree.parse用于解析标准网页格式,etree.HTML用于处理不规范的html数据。

如何处理cookie以登录小说网并爬取数据?

需要先登录获取cookie,然后使用session请求书架的内容。

如何爬取梨视频的下载地址?

需要获取contID,修整srcUrl,然后下载视频。

使用xpath进行定位有什么重要性?

掌握xpath定位有助于在爬虫解析时更有效地提取数据。

➡️

继续阅读