山维空间 ·

一次 TiDB 向量查询优化实战：

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

本文讨论了TiDB向量查询的优化实践，通过将查询分为两阶段（先获取TopN ID和距离，再回表获取详情），显著降低了RU和耗时。虽然将locale统一为小写和使用locale = ?是必要的，但未能使查询走索引路径。最终优化方案强调了数据规范化和两阶段查询的重要性。

🎯

🔎

在TiDB向量查询优化中，数据规范化是基础。将documents.locale统一为小写，虽然不是主要的性能提升来源，但却是确保查询一致性和避免潜在错误的必要步骤。这种规范化有助于减少查询中的表达式损耗，确保后续的优化措施能够有效实施。

采用两阶段查询策略显著降低了RU和耗时。通过先获取TopN ID和距离，再回表获取详细信息，避免了在向量排序阶段带入过多大字段，从而减少了计算负担。这一策略在处理大数据量时尤为重要，能够有效提升查询性能。

尽管在优化过程中引入了idx_locale索引，但测试结果显示该索引并未有效改善查询性能，仍然执行全表扫描。这提醒开发者在进行SQL优化时，不能仅依赖索引的存在，还需关注查询计划的实际执行路径。

❓

主要优化方案是将查询改为两阶段：先获取TopN ID和距离，再回表获取详情。

虽然将locale统一为小写和使用locale = ?是必要的，但在测试中并未使查询走索引路径，仍然执行全表扫描。

通过对比三种SQL形态的执行计划和实际RU，使用EXPLAIN ANALYZE进行验证。

LOWER(locale)会导致查询计划变差，影响过滤条件的下推，增加全表扫描的可能性。

两阶段查询首先计算TopN ID和距离，然后再回表获取详细信息。

idx_locale是为了优化locale列的查询，但在测试中并未使查询走到索引路径，仍然执行全表扫描。

🏷️