手刃一个善意的小爬虫(三),使用xpath解析,包括常用处理技巧

💡 原文中文,约4300字,阅读约需11分钟。
📝

内容提要

本文介绍了使用lxml库进行xpath入门练习的方法,包括找到ul标签中的所有文本内容、通过索引找到ul标签中的百度、找到ol标签下href属性为dapao的文本值、找到ol标签下a标签中所有的文本值、找到ol标签下a标签中所有href属性的值等。同时还介绍了etree.parse和etree.HTML的区别,并给出了爬取猪八戒网站信息和处理cookie登录小说网、处理防盗链问题爬取梨视频下载地址的案例实战。最后总结了使用xpath进行定位的基础知识。

🎯

关键要点

  • 安装lxml库并导入:pip install lxml,from lxml import etree
  • 练习一:使用xpath找到ul标签中的所有文本内容
  • 练习二:通过索引找到ul标签中的百度
  • 练习三:找到ol标签下href属性为dapao的文本值
  • 练习四:找到ol标签下a标签中所有的文本值
  • 练习五:找到ol标签下a标签中所有href属性的值
  • 技巧补充:使用浏览器检查元素并复制xpath
  • etree.parse和etree.HTML的区别:前者解析标准网页格式,后者处理不规范的html数据
  • 案例实战:爬取猪八戒网站的信息
  • 处理cookie登录小说网的步骤:登录获取cookie,使用session请求书架内容
  • 处理防盗链问题爬取梨视频下载地址的步骤:获取contID,修整srcUrl,下载视频
  • 结语:掌握xpath定位有助于爬虫解析,鼓励继续学习
➡️

继续阅读