DEV Community ·

如何使用Selenium抓取登录保护的网站（逐步指南）

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

本文介绍了如何抓取受密码保护的网站，包括提取登录表单元素、使用Selenium自动登录、保存会话cookie和获取数据。首先，识别登录页面的用户名、密码和登录按钮的CSS选择器，然后使用Selenium进行登录并保存cookie，最后通过requests库获取所需数据。此外，还可以利用AI提取特定信息，如API密钥。

🎯

关键要点

介绍如何抓取受密码保护的网站，包括提取登录表单元素、使用Selenium自动登录、保存会话cookie和获取数据。
识别登录页面的用户名、密码和登录按钮的CSS选择器。
使用Selenium进行自动登录，填写用户名和密码，点击登录按钮。
保存会话cookie以进行身份验证。
使用requests库获取经过身份验证的页面数据。
提供了一个示例，展示如何从特定网站抓取API密钥。
使用BeautifulSoup提取HTML表单元素的CSS选择器。
创建Selenium WebDriver并使用无头模式进行登录。
保存Selenium WebDriver中的cookie到字典中。
使用requests库的会话功能，添加cookie并请求API密钥页面。
利用AI提取特定信息，如API密钥，使用OpenAI的GPT模型进行数据提取。

❓

延伸问答

如何提取登录表单的元素？

可以使用BeautifulSoup库来解析HTML内容，找到用户名、密码输入框和登录按钮的CSS选择器。

如何使用Selenium自动登录受保护的网站？

使用Selenium创建WebDriver，打开登录页面，填写用户名和密码，然后点击登录按钮。

如何保存Selenium中的会话cookie？

可以通过driver.get_cookies()函数获取cookie，并将其保存到字典中。

如何使用requests库获取经过身份验证的页面数据？

创建requests会话，添加保存的cookie，然后请求所需的URL以获取数据。

如何利用AI提取特定信息，如API密钥？

可以使用OpenAI的GPT模型，通过提供上下文并请求提取特定信息来获取API密钥。

使用Selenium时如何设置无头模式？

在创建Chrome WebDriver时，添加'--headless'选项以启用无头模式。

🏷️