内容提要
今天发布了jina-code-embeddings,包含0.5B和1.5B两种参数的代码嵌入模型,支持15种编程语言。0.5B模型在25个代码检索基准中平均表现为78.41%,1.5B为79.04%。这些模型通过对比学习和合成数据训练,展示了在小规模下的优异性能,验证了基础模型的重要性。
关键要点
-
今天发布了jina-code-embeddings,包含0.5B和1.5B两种参数的代码嵌入模型,支持15种编程语言。
-
0.5B模型在25个代码检索基准中平均表现为78.41%,1.5B为79.04%。
-
0.5B模型比Qwen3-Embedding-0.6B高出5个百分点,1.5B模型与voyage-code-3相当。
-
模型通过对比学习和合成数据训练,展示了在小规模下的优异性能。
-
使用了五个任务特定的指令前缀,支持不对称检索的查询和文档角色。
-
训练数据结合了现有的MTEB代码任务训练集和适应的公共数据集。
-
训练效率高,0.5B模型在8.3小时内完成训练,1.5B模型在12小时内完成。
-
最后一个token池化策略在所有基准类别中表现优于均值池化和潜在注意力池化。
-
jina-code-embeddings证明有效的代码嵌入不需要大规模模型,正确的基础模型更为重要。
-
Jina AI的愿景是统一架构,使嵌入和生成来自同一基础,推动搜索基础模型的可能性。
延伸问答
jina-code-embeddings模型支持哪些编程语言?
该模型支持超过15种编程语言,包括Python、JavaScript、Java、C++等。
jina-code-embeddings的0.5B和1.5B模型在代码检索基准中的表现如何?
0.5B模型平均表现为78.41%,1.5B模型为79.04%。
jina-code-embeddings模型是如何训练的?
模型通过对比学习和合成数据训练,结合了现有的MTEB代码任务训练集和适应的公共数据集。
jina-code-embeddings的训练效率如何?
0.5B模型在8.3小时内完成训练,1.5B模型在12小时内完成。
jina-code-embeddings使用了什么样的池化策略?
模型使用了最后一个token池化策略,表现优于均值池化和潜在注意力池化。
jina-code-embeddings的核心理念是什么?
该模型证明有效的代码嵌入不需要大规模模型,正确的基础模型更为重要。