Blog - Supabase ·

马特里奥什卡嵌入：使用自适应检索加速OpenAI向量搜索

💡 原文英文，约3700词，阅读约需14分钟。

📝

内容提要

OpenAI于一月底发布了第三代文本嵌入模型，具备缩短维度的能力，并在MTEB和MIRACL基准测试中超越了前一版本。新API允许用户根据需求调整嵌入维度，尽管缩短可能导致轻微的准确性损失。该模型采用“马特里奥什卡表示学习”技术，确保在较低维度下仍能保留有用信息，同时自适应检索方法提升了向量搜索的速度和准确性。

🎯

关键要点

OpenAI于一月底发布了第三代文本嵌入模型，具备缩短维度的能力。
新模型在MTEB和MIRACL基准测试中超越了前一版本。
用户可以根据需求调整嵌入维度，尽管缩短可能导致轻微的准确性损失。
该模型采用“马特里奥什卡表示学习”技术，确保在较低维度下仍能保留有用信息。
自适应检索方法提升了向量搜索的速度和准确性。

❓

延伸问答

OpenAI的第三代文本嵌入模型有什么新特性？

该模型具备缩短维度的能力，并在MTEB和MIRACL基准测试中超越了前一版本。

如何调整OpenAI文本嵌入模型的维度？

用户可以通过新API参数调整嵌入维度，尽管缩短可能导致轻微的准确性损失。

什么是马特里奥什卡表示学习技术？

马特里奥什卡表示学习是一种训练技术，允许在单个高维向量中以多层次的粒度嵌入信息，确保即使在较低维度下也能保留有用信息。

自适应检索方法如何提升向量搜索的速度和准确性？

自适应检索方法通过两次搜索，第一次使用低维表示快速获取相关记录，第二次使用高维表示对结果进行精确排序，从而提高了搜索效率和准确性。

缩短嵌入维度会有什么影响？

缩短嵌入维度可能导致轻微的准确性损失，但这种损失是渐进的，且在马特里奥什卡模型中仍能保留有用信息。

如何在SQL中实现自适应检索？

可以通过创建一个存储文档和嵌入的表，并使用自定义函数和索引来实现自适应检索，具体步骤包括创建表、函数和索引。

🏷️