Voyage AI ·

voyage-code-3：通过低维量化嵌入实现更准确的代码检索

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

voyage-code-3是一种新一代代码检索嵌入模型，其性能优于OpenAI-v3-large和CodeSage-large。该模型支持低维度和量化格式，显著降低存储和检索成本。通过Matryoshka学习和量化训练，voyage-code-3在32个数据集上表现出色，适用于多种代码检索任务。

🎯

voyage-code-3是一种新一代代码检索嵌入模型，性能优于OpenAI-v3-large和CodeSage-large，平均提升13.80%和16.81%。
该模型支持低维度和量化格式，显著降低存储和检索成本，使用Matryoshka学习和量化训练。
voyage-code-3在32个数据集上表现出色，适用于多种代码检索任务，包括文本到代码、代码到代码和文档字符串到代码的检索。
模型使用了更大、更丰富的高质量代码语料库进行训练，确保了对真实场景的强大覆盖。
voyage-code-3在评估中表现优异，超越了所有其他模型，平均提升16.30%。

🔎

voyage-code-3通过支持低维度和量化格式，显著降低了存储和检索成本。这对于处理大规模代码库尤为重要，因为存储成本会随着嵌入维度和精度的增加而线性增长。使用量化嵌入，用户可以在保持检索质量的同时，节省大量资源。

该模型适用于多种代码检索任务，包括文本到代码、代码到代码和文档字符串到代码的检索。这种多样性使得voyage-code-3能够满足不同开发者和企业的需求，尤其是在复杂的代码场景中表现出色。

voyage-code-3的评估使用了32个数据集，涵盖了多种真实世界的代码检索任务。这种全面的评估确保了模型在实际应用中的有效性，尤其是在面对复杂的代码结构和语法时，能够提供更准确的检索结果。

❓

voyage-code-3在32个数据集上平均性能优于OpenAI-v3-large和CodeSage-large，分别提升13.80%和16.81%。

该模型支持低维度和量化格式，使用Matryoshka学习和量化训练，显著降低存储和检索成本。

voyage-code-3适用于文本到代码、代码到代码和文档字符串到代码的检索任务。

voyage-code-3使用了更大、更丰富的高质量代码语料库进行训练，确保对真实场景的强大覆盖。

voyage-code-3在评估中表现优异，超越了所有其他模型，平均提升16.30%。

Matryoshka学习创建嵌入的嵌套家族，允许用户在不重新调用模型的情况下使用不同维度的嵌入。

🏷️