Databricks ·

大型语言模型代理在连接顺序优化方面表现如何？

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

Databricks平台探索利用大型语言模型（LLM）优化数据库查询中的连接顺序。传统查询优化器在估算子查询规模时面临挑战，导致连接顺序选择不佳。通过开发原型代理，测试不同连接顺序，结果显示该代理显著提高了查询性能，尤其在复杂查询中表现突出。这项研究展示了LLM在数据库优化中的潜力。

🎯

🔎

大型语言模型（LLM）在数据库查询优化中展现出显著优势，尤其是在处理复杂查询时。与传统的查询优化器相比，LLM能够更好地适应不同的数据模式，自动化调整连接顺序，从而提高查询性能。这种能力不仅减少了人工干预的需求，还能在更短的时间内找到更优的查询计划。

连接顺序的优化一直是数据库管理中的难题，传统方法在估算子查询规模时常常面临困难。这种估算的不准确性可能导致选择不佳的连接顺序，从而影响查询效率。LLM的引入为解决这一问题提供了新的思路，尤其是在处理多表连接时，能够有效减少复杂性。

虽然LLM在连接顺序优化中展现出良好的性能，但仍需注意其局限性。当前的模型在实时查询优化中应用仍存在挑战，尤其是在需要快速响应的场景中。此外，模型的训练和调优过程也需要大量的数据和计算资源，这可能限制其广泛应用。

❓

大型语言模型通过开发原型代理，测试不同的连接顺序，从而显著提高查询性能，尤其在复杂查询中表现突出。

传统查询优化器在估算子查询规模时面临挑战，导致连接顺序选择不佳，尤其在处理复杂查询时。

使用前沿模型的代理在查询延迟方面提高了1.288倍的性能，尤其在查询的尾部分布中表现出色。

通过生成结构化模型输出的连接顺序，确保模型输出符合指定语法，从而只允许有效的连接重排序。

代理通过50次迭代测试不同的连接顺序，结合“利用”和“探索”策略来寻找最佳的连接顺序。

这项研究展示了大型语言模型在数据库优化中的潜力，可能会推动数据库引擎的下一代发展。

🏷️