The Cloudflare Blog ·

Perplexity正在使用隐蔽的、未声明的爬虫来规避网站的禁止爬取指令

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

Perplexity的爬虫行为隐蔽，试图绕过网站限制，修改用户代理并忽视robots.txt文件。尽管被网站阻止，Perplexity仍能获取受限内容。相对而言，良好的爬虫应遵守规则。Cloudflare已将其列为非认证爬虫并采取阻止措施。

🎯

🔎

Perplexity的隐蔽爬虫行为可能对网站内容安全构成威胁。尽管网站设置了阻止规则，Perplexity依然能够获取受限内容，这表明其爬虫技术的复杂性和规避能力。网站管理员需加强监控，确保内容不被未授权访问。

文章强调了良好爬虫应遵循的原则，包括透明性和遵守网站规则。与Perplexity的行为形成对比，OpenAI的爬虫遵循最佳实践，尊重robots.txt文件。这提醒内容创作者在选择合作方时，需关注其爬虫的合规性。

Cloudflare推出的Content Independence Day为内容创作者提供了更多控制权，允许他们决定哪些AI爬虫可以访问其内容。这一变化使得网站能够更好地保护自身数据，避免被不当使用。

❓

Perplexity通过修改用户代理和使用多个IP地址来规避网站的robots.txt文件和其他限制。

Cloudflare将Perplexity列为非认证爬虫，并采取措施阻止其爬虫活动。

良好的爬虫应透明、目的明确、遵守网站规则，并避免使用隐蔽手段。

Perplexity的爬虫行为可能导致内容创作者的受限内容被未经授权地访问和使用。

Content Independence Day是Cloudflare推出的一项功能，允许内容创作者控制AI爬虫的访问权限。

OpenAI的爬虫遵循最佳实践，尊重robots.txt文件，而Perplexity则试图绕过这些规则。

🏷️