手刃一个善意的小爬虫(三),使用xpath解析,包括常用处理技巧
内容提要
本文介绍了使用lxml库进行xpath入门练习的方法,包括找到ul标签中的所有文本内容、通过索引找到ul标签中的百度、找到ol标签下href属性为dapao的文本值、找到ol标签下a标签中所有的文本值、找到ol标签下a标签中所有href属性的值等。同时还介绍了etree.parse和etree.HTML的区别,并给出了爬取猪八戒网站信息和处理cookie登录小说网、处理防盗链问题爬取梨视频下载地址的案例实战。最后总结了使用xpath进行定位的基础知识。
关键要点
-
安装lxml库并导入:pip install lxml,from lxml import etree
-
练习一:使用xpath找到ul标签中的所有文本内容
-
练习二:通过索引找到ul标签中的百度
-
练习三:找到ol标签下href属性为dapao的文本值
-
练习四:找到ol标签下a标签中所有的文本值
-
练习五:找到ol标签下a标签中所有href属性的值
-
技巧补充:使用浏览器检查元素并复制xpath
-
etree.parse和etree.HTML的区别:前者解析标准网页格式,后者处理不规范的html数据
-
案例实战:爬取猪八戒网站的信息
-
处理cookie登录小说网的步骤:登录获取cookie,使用session请求书架内容
-
处理防盗链问题爬取梨视频下载地址的步骤:获取contID,修整srcUrl,下载视频
-
结语:掌握xpath定位有助于爬虫解析,鼓励继续学习
延伸问答
如何安装lxml库以使用xpath?
使用命令pip install lxml进行安装。
如何使用xpath找到ul标签中的所有文本内容?
可以使用tree.xpath('/html/body/ul/li/a/text()')来获取ul标签中的所有文本。
etree.parse和etree.HTML有什么区别?
etree.parse用于解析标准网页格式,etree.HTML用于处理不规范的html数据。
如何处理cookie以登录小说网并爬取数据?
需要先登录获取cookie,然后使用session请求书架的内容。
如何爬取梨视频的下载地址?
需要获取contID,修整srcUrl,然后下载视频。
使用xpath进行定位有什么重要性?
掌握xpath定位有助于在爬虫解析时更有效地提取数据。