亚马逊AWS官方博客 ·

Amazon DocumentDB 之中文检索

💡 原文中文，约6900字，阅读约需17分钟。

📝

内容提要

文章介绍了如何在 Amazon DocumentDB 上实现中文全文检索。通过创建集群并导入数据，结合开源插件「结巴分词」对数据进行分词，并将结果存入新字段。利用 Amazon Lambda 和变更流功能，实现数据的自动分词和更新，最终实现中文检索。

🎯

🔎

尽管 Amazon DocumentDB 的原生全文检索功能仅支持英语，但随着中文数据的增加，开发者需要寻找解决方案来实现中文检索。结合「结巴分词」插件，可以有效地对中文文本进行分词处理，从而提升检索的准确性和效率。

通过使用 Amazon Lambda 和变更流功能，用户可以实现对增量数据的自动分词和更新。这种方法不仅提高了数据处理的实时性，还减少了手动干预的需求，适合需要频繁更新数据的应用场景。

在创建文本索引时，需注意每个集合只能有一个文本索引。这意味着在处理存量数据时，必须谨慎选择索引字段，以避免影响现有的数据结构和检索功能。

❓

通过创建 Amazon DocumentDB 集群并导入数据，结合开源插件「结巴分词」进行分词处理，最终实现中文检索。

目前，Amazon DocumentDB 的全文检索功能仅支持英语。

可以通过 Python 调用「结巴分词」库，对中文字符串进行分词处理，返回分词结果。

使用 Amazon Lambda 和变更流功能，当插入新数据时自动触发分词处理，并更新到新字段中。

创建集群时需选择版本 5.0，并确保导入测试数据。

在新字段「MyIndex」上创建文本索引，以支持中文检索。

🏷️