倒排索引关键点普及
💡
原文中文,约800字,阅读约需2分钟。
📝
内容提要
倒排索引是全文检索系统的索引方法,现代搜索引擎常用。它通过逆向运算将物品属性信息映射到物品,帮助用户快速定位目标信息。倒排索引由倒排表和词项字典组成,使用压缩算法节约内存。词项字典使用fst算法映射词项字段和词项索引,节省内存空间。
🎯
关键要点
- 倒排索引是一种索引方法,常用于全文检索系统。
- 现代搜索引擎大多数基于倒排索引构建,满足用户快速获取信息的需求。
- 倒排索引通过逆向运算实现关键词与文档的映射,帮助用户快速定位目标信息。
- 倒排索引由倒排表和词项字典组成。
- 倒排表使用roaring bitmaps和frame of reference压缩算法存储匹配项的ID。
- 词项字典使用fst算法进行压缩,节约内存空间,性能优于hashmap。
- fst算法通过复用后缀和前缀,极大节约了存储结构的长度,降低内存占用。
➡️