布丁布丁吃什麼？ ·

用爬蟲作為Dify的知識庫：Firecrawl / Using a Web Crawler as Dify's Knowledge Base: Firecrawl

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

Dify结合Coolcrawl替代Firecrawl，能够高效抓取内网数据。Firecrawl专为大型语言模型设计，自动抓取并清理网站内容。Coolcrawl可自架设，使用Docker Compose搭建。尽管Dify知识库更新困难，爬虫抓取数据更为高效。

🎯

🔎

Coolcrawl作为Firecrawl的分支，允许用户自架设，适合需要抓取内网数据的场景。然而，它缺乏Firecrawl的一些高级功能，如LLM Extract，可能影响数据处理的效率和质量。用户在选择时需权衡自架设的灵活性与功能的全面性。

Dify的知识库更新依赖手动同步，使用爬虫抓取数据后，用户必须主动按Sync来更新内容。这在处理大量数据时显得尤为繁琐，用户需考虑如何高效管理知识库的更新，以避免信息滞后。

为了提高爬虫抓取子页面的效率，用户可以利用sitemap.xml文件。这种文件为爬虫提供了网站结构的清晰指引，确保其能够找到所有相关页面。掌握这一技巧可以显著提升数据抓取的全面性。

❓

Dify结合Coolcrawl可以高效抓取内网数据，替代Firecrawl的公共服务。

Firecrawl专为大型语言模型设计，自动抓取并清理网站内容，支持Markdown格式输出。

使用Docker Compose架设Coolcrawl只需配置docker-compose.yml文件，然后运行指令即可。

Dify的知识库内容不自动更新，需要手动同步，更新过程较为繁琐。

Coolcrawl是Firecrawl的分支，支持自架设但缺少某些Firecrawl的特定功能。

在Dify中设置Coolcrawl需要输入API Key和Base URL，然后保存即可。

🏷️