鸟窝 ·

我把775篇收藏塞进4MB向量库：一个比Karpathy Wiki更能"翻箱底"的RAG skill

💡 原文中文，约6200字，阅读约需15分钟。

📝

内容提要

文章介绍了chao-rag-wiki技能，该技能通过将775篇文章存入4MB的向量库，实现快速检索和知识管理。与Karpathy的llm-wiki不同，chao-rag-wiki直接对原文进行语义索引，支持混合检索，能更全面地召回信息。两者各有优缺点，前者适合查找整理好的知识，后者适合快速检索原始资料。

🎯

关键要点

chao-rag-wiki 是一个将 775 篇文章存入 4MB 向量库的技能，支持快速检索和知识管理。
与 Karpathy 的 llm-wiki 不同，chao-rag-wiki 直接对原文进行语义索引，支持混合检索，能更全面地召回信息。
Karpathy 的 llm-wiki 需要先将素材编译成结构化知识，才能进行检索，而 chao-rag-wiki 则允许直接检索原始素材。
chao-rag-wiki 使用混合检索技术，结合了稠密向量检索和关键词检索，能够更准确地返回相关信息。
chao-rag-wiki 的优点包括零编译延迟和更全面的召回能力，但缺乏知识沉淀和对近似重复内容的识别。
在实际对比中，chao-rag-wiki 在检索冷门话题和长尾问题时表现更佳，而 Karpathy 的 llm-wiki 则在热门话题的成品质量上占优。
两者并不是替代关系，而是互补关系，分别适用于不同的知识检索需求。
通过 Web Clipper 自动抓取素材并定时索引，chao-rag-wiki 和 Karpathy 的 llm-wiki 可以高效地管理知识库。

🔎

延伸解读

知识管理的选择

在知识管理中，选择合适的工具至关重要。chao-rag-wiki和karpathy-llm-wiki各有优势，前者适合快速检索原始资料，后者则在热门话题的成品质量上表现更佳。用户应根据自己的需求，选择合适的工具来管理和检索知识。

混合检索的优势

chao-rag-wiki采用混合检索技术，结合了稠密向量检索和关键词检索，能够更全面地召回信息。这种方法特别适合处理长尾问题和冷门话题，用户在使用时可以期待更高的检索准确性和信息覆盖率。

实时更新与知识沉淀

chao-rag-wiki的零编译延迟使得新素材可以迅速被索引并检索，而karpathy-llm-wiki则强调知识的沉淀和结构化。用户在选择时需考虑自己的使用场景，是否更需要实时信息的获取，还是更看重知识的系统化整理。

❓

延伸问答

chao-rag-wiki的主要功能是什么？

chao-rag-wiki通过将775篇文章存入4MB的向量库，实现快速检索和知识管理。

chao-rag-wiki与Karpathy的llm-wiki有什么区别？

chao-rag-wiki直接对原文进行语义索引，支持混合检索，而llm-wiki需要先将素材编译成结构化知识才能检索。

chao-rag-wiki的检索技术是怎样的？

chao-rag-wiki使用混合检索技术，结合稠密向量检索和关键词检索，能够更准确地返回相关信息。

使用chao-rag-wiki有什么优缺点？

优点包括零编译延迟和更全面的召回能力，缺点是缺乏知识沉淀和对近似重复内容的识别。

在什么情况下使用chao-rag-wiki更合适？

chao-rag-wiki适合查找冷门话题和长尾问题，而llm-wiki则在热门话题的成品质量上占优。

如何将素材导入到chao-rag-wiki中？

可以通过Web Clipper自动抓取素材，并定时索引到raw目录中，随后运行增量索引即可。

🏷️