Jina AI ·

Jina代码嵌入：在0.5B和1.5B参数下的最先进代码检索

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

今天发布了jina-code-embeddings，包含0.5B和1.5B两种参数的代码嵌入模型，支持15种编程语言。0.5B模型在25个代码检索基准中平均表现为78.41%，1.5B为79.04%。这些模型通过对比学习和合成数据训练，展示了在小规模下的优异性能，验证了基础模型的重要性。

🎯

关键要点

今天发布了jina-code-embeddings，包含0.5B和1.5B两种参数的代码嵌入模型，支持15种编程语言。
0.5B模型在25个代码检索基准中平均表现为78.41%，1.5B为79.04%。
0.5B模型比Qwen3-Embedding-0.6B高出5个百分点，1.5B模型与voyage-code-3相当。
模型通过对比学习和合成数据训练，展示了在小规模下的优异性能。
使用了五个任务特定的指令前缀，支持不对称检索的查询和文档角色。
训练数据结合了现有的MTEB代码任务训练集和适应的公共数据集。
训练效率高，0.5B模型在8.3小时内完成训练，1.5B模型在12小时内完成。
最后一个token池化策略在所有基准类别中表现优于均值池化和潜在注意力池化。
jina-code-embeddings证明有效的代码嵌入不需要大规模模型，正确的基础模型更为重要。
Jina AI的愿景是统一架构，使嵌入和生成来自同一基础，推动搜索基础模型的可能性。

❓

延伸问答

jina-code-embeddings模型支持哪些编程语言？

该模型支持超过15种编程语言，包括Python、JavaScript、Java、C++等。

jina-code-embeddings的0.5B和1.5B模型在代码检索基准中的表现如何？

0.5B模型平均表现为78.41%，1.5B模型为79.04%。

jina-code-embeddings模型是如何训练的？

模型通过对比学习和合成数据训练，结合了现有的MTEB代码任务训练集和适应的公共数据集。

jina-code-embeddings的训练效率如何？

0.5B模型在8.3小时内完成训练，1.5B模型在12小时内完成。

jina-code-embeddings使用了什么样的池化策略？

模型使用了最后一个token池化策略，表现优于均值池化和潜在注意力池化。

jina-code-embeddings的核心理念是什么？

该模型证明有效的代码嵌入不需要大规模模型，正确的基础模型更为重要。

🏷️

继续阅读

为什么Claude需要真实环境来验证云原生代码
文章讨论了编码代理在软件开发中的重要性，强调了验证循环的必要性。有效的编码代理能够自我验证，减轻开发者的负担。代理需在真实生产环境中运行变更，并具备相应技...
掌控CI中的AI代码质量：直播演示
AI加速了编码，但缺乏适当检查可能导致代码质量和安全性风险。JetBrains专家将在直播中演示如何通过Qodana和TeamCity在CI管道中实施可重...
开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！
DeepSeek v4发布了Pro和Flash两个版本，分别拥有1.6T和284B参数，价格低至3.48美元和0.28美元。Pro版适合复杂任务，Flas...
GPT-5.5代码能力跃迁解析：防御戒备切换为高密度可靠执行
GPT-5.5在代码能力上显著提升，减少冗余结构，提高可读性和输出可靠性。代码更简洁，开发者无需理解复杂逻辑，维护成本降低。模型的自主实验能力增强，能够独...
MuP之上：4. 坚守参数的稳定性
通过前几篇文章的推导和计算，我们可以发现，第一篇《MuP之上：1. 好模型的三个特征》所提的三个稳定性指标通常可以分为“参数稳定性”和“增量稳定性”两部分...
公共代码仓库的重要性
代码仓库不仅是工作场所，也是项目和社区的展示平台。README文件作为项目的欢迎页面，需保持准确和更新。使用Dist::Zilla插件可以确保文档与代码同...