DEV Community ·

使用Firecrawl和Trieve为任何网站构建搜索和RAG

💡 原文英文，约2400词，阅读约需9分钟。

📝

内容提要

本指南介绍了如何使用Firecrawl和Trieve在Python和JS中构建SigNoz文档的搜索和RAG。使用Firecrawl的REST API将URL上的每个页面转换为向量搜索和RAG-ready markdown。然后，Trieve的API可以接收markdown文档的块，将它们嵌入到搜索索引中，并最终调用执行AI搜索和RAG。所有使用的代码（包括node.js和Python）也在GitHub上提供。

🎯

关键要点

本指南介绍了如何使用Firecrawl和Trieve构建SigNoz文档的搜索和RAG。
Firecrawl的REST API可以将URL上的每个页面转换为向量搜索和RAG准备好的markdown。
Trieve的API可以接收markdown文档的块，将它们嵌入到搜索索引中，并执行AI搜索和RAG。
所有使用的代码（包括node.js和Python）在GitHub上提供。
需要注册Firecrawl和Trieve以获取免费的API密钥。
使用Firecrawl将https://signoz.io/docs/上的页面转换为markdown并保存为json文件。
对markdown进行初步清理，去除多余内容并调整链接的呈现方式。
采用基线分块方法将页面分割为较小的块，保持语义一致性。
使用正则表达式递归分割较长的markdown内容，确保块的长度和深度符合要求。
为Trieve准备的块包括各种元数据和标签，以便于搜索和过滤。
使用Trieve的api/chunk路由将块存储到Trieve中以进行搜索和RAG。
在Trieve的Playgrounds中测试搜索和RAG的质量，查看数据和初步清理的效果。
提供多种搜索类型（如语义、全文、混合）和分组搜索的功能。
HyDE是一种检索方法，通过生成假设文档来提高检索精度。
Firecrawl和Trieve是快速构建搜索和RAG系统的强大组合。

❓

延伸问答

如何使用Firecrawl将网页转换为markdown格式？

使用Firecrawl的REST API，可以将指定URL上的每个页面转换为向量搜索和RAG准备好的markdown格式。

Trieve的API如何处理markdown文档？

Trieve的API接收markdown文档的块，将它们嵌入到搜索索引中，并执行AI搜索和RAG。

在使用Firecrawl和Trieve之前需要做什么准备？

需要注册Firecrawl和Trieve以获取免费的API密钥，并设置.env文件以存储这些密钥。

如何对markdown内容进行初步清理？

初步清理包括去除多余内容和调整链接的呈现方式，可以使用预先定义的清理函数。

如何将处理后的块存储到Trieve中？

使用Trieve的api/chunk路由将处理后的块以JSON格式存储到Trieve中。

Trieve的Playgrounds有什么功能？

Trieve的Playgrounds允许用户测试搜索和RAG的质量，查看数据和初步清理的效果。

🏷️