京东科技开发者 ·

Text2SQL准确率暴涨22.6%！3大维度全拆

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

本文探讨了Text2SQL技术的发展及挑战，提出J-Schema方法优化数据库结构理解，并通过迭代DPO训练提升模型性能，最终在BIRD数据集上将执行准确率从56.6%提高至69.2%。

🎯

🔎

Text2SQL技术经历了从基于规则到大语言模型的演变，每个阶段都有其独特的挑战和优势。了解这一演进过程有助于把握当前技术的局限性和未来发展方向，尤其是在提示优化和模型训练方面的持续探索。

J-Schema通过结构化方式呈现数据库信息，显著提升了模型对数据库结构的理解能力。这种方法不仅优化了示例值的使用，还能有效减少模型在推理时的错误，适用于复杂查询场景。

自洽性方法通过硬投票和软投票机制提升了模型的答案可靠性。软投票在处理近似正确结果时表现更佳，适合在实际应用中提高模型的稳定性和准确性，尤其是在复杂查询的场景下。

❓

Text2SQL技术的主要目标是将自然语言查询转换为可在关系数据库上执行的SQL查询，以准确反映用户意图并返回适当结果。

J-Schema方法通过以结构化格式呈现数据库信息，提供示例值并引导模型推理，从而优化数据库结构理解。

迭代DPO训练方法通过多轮迭代提升模型性能，能够构建更具信息量的新偏好关系，从而改善结果。

在BIRD数据集上，Text2SQL的执行准确率从56.6%提升至69.2%。

思维链技术通过引导模型生成中间推理步骤，模拟人类逐步思考的过程，从而提升复杂推理能力。

自洽性方法通过让模型对同一问题生成多个候选答案，并使用硬投票和软投票机制选择最优解来实现。

🏷️