Jina代码嵌入:在0.5B和1.5B参数下的最先进代码检索

Jina代码嵌入:在0.5B和1.5B参数下的最先进代码检索

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

今天发布了jina-code-embeddings,包含0.5B和1.5B两种参数的代码嵌入模型,支持15种编程语言。0.5B模型在25个代码检索基准中平均表现为78.41%,1.5B为79.04%。这些模型通过对比学习和合成数据训练,展示了在小规模下的优异性能,验证了基础模型的重要性。

🎯

关键要点

  • 今天发布了jina-code-embeddings,包含0.5B和1.5B两种参数的代码嵌入模型,支持15种编程语言。

  • 0.5B模型在25个代码检索基准中平均表现为78.41%,1.5B为79.04%。

  • 0.5B模型比Qwen3-Embedding-0.6B高出5个百分点,1.5B模型与voyage-code-3相当。

  • 模型通过对比学习和合成数据训练,展示了在小规模下的优异性能。

  • 使用了五个任务特定的指令前缀,支持不对称检索的查询和文档角色。

  • 训练数据结合了现有的MTEB代码任务训练集和适应的公共数据集。

  • 训练效率高,0.5B模型在8.3小时内完成训练,1.5B模型在12小时内完成。

  • 最后一个token池化策略在所有基准类别中表现优于均值池化和潜在注意力池化。

  • jina-code-embeddings证明有效的代码嵌入不需要大规模模型,正确的基础模型更为重要。

  • Jina AI的愿景是统一架构,使嵌入和生成来自同一基础,推动搜索基础模型的可能性。

延伸问答

jina-code-embeddings模型支持哪些编程语言?

该模型支持超过15种编程语言,包括Python、JavaScript、Java、C++等。

jina-code-embeddings的0.5B和1.5B模型在代码检索基准中的表现如何?

0.5B模型平均表现为78.41%,1.5B模型为79.04%。

jina-code-embeddings模型是如何训练的?

模型通过对比学习和合成数据训练,结合了现有的MTEB代码任务训练集和适应的公共数据集。

jina-code-embeddings的训练效率如何?

0.5B模型在8.3小时内完成训练,1.5B模型在12小时内完成。

jina-code-embeddings使用了什么样的池化策略?

模型使用了最后一个token池化策略,表现优于均值池化和潜在注意力池化。

jina-code-embeddings的核心理念是什么?

该模型证明有效的代码嵌入不需要大规模模型,正确的基础模型更为重要。

➡️

继续阅读