Jina AI ·

为仅解码器嵌入模型优化GGUF

💡 原文英文，约3500词，阅读约需13分钟。

📝

内容提要

两周前，我们发布了jina-embeddings-v4的GGUF格式，以提高推理速度。现代嵌入模型与LLM几乎相同，主要区别在于输出类型。文章讨论了将现代嵌入模型适配GGUF格式的经验，包括去除视觉变换器和多向量投影器，最终得到三个任务特定的GGUF模型。

🎯

关键要点

两周前发布了jina-embeddings-v4的GGUF格式，以提高推理速度。
现代嵌入模型与LLM几乎相同，主要区别在于输出类型。
文章分享了将现代嵌入模型适配GGUF格式的经验，包括去除视觉变换器和多向量投影器。
jina-embeddings-v4基于Qwen2.5-VL-3B-instruct，包含三个LoRA适配器，分别针对检索、文本匹配和代码检索任务。
在实验中发现，llama.cpp的视觉变换器存在bug，因此决定暂时不支持视觉塔。
多向量输出不被直接支持，但可以通过导出MLP后处理来实现。
最终得到了三个任务特定的GGUF模型，每个模型参数为3.09B。
使用calibration_data_v5_rc.txt对模型进行校准，并使用llama-quantize进行量化。
GGUF模型需要手动添加Query:或Passage:前缀以确保输入一致性。
llama-server可以作为OpenAI API兼容的HTTP服务器来托管嵌入模型。
在使用llama-embedding进行单次嵌入时，性能存在问题，不推荐用于批量嵌入。
GGUF模型的使用存在一些限制，如无法处理图像输入和输出多向量嵌入。
通过优化，llama-embedding的批处理和内存控制得到了改善。
在基准测试中，量化版本的速度和VRAM使用情况得到了评估。
最佳的量化版本是IQ3_M，低于2位的量化效果不如v3。
在L4 GPU上，IQ3_S和IQ3_M可以实现4000个tokens/秒的速度，适合预算有限的用户。

🏷️

继续阅读

2025年全年独立显卡出货量达4,428万张但我怀疑不少是买来训练/跑模型的
预计2025年台式机独立显卡出货量将达4428万张，英伟达占92%。尽管RTX 50系列显卡因性能强大而受欢迎，但因内存短缺价格高企，开发者和小企业需求增...
研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
免费无限量的 GLM-5、Qwen3.5-398B 模型，AtomGit 限时免费
AtomGit推出限时活动，用户可免费使用GLM-5和Qwen3.5-398B模型。但OpenClaw的上下文限制为16K，可能存在设置错误。注册后可调用...
技术获 NVIDIA、Pi 双重认可！原力灵机 DM0 模型重塑具身智能新范式
原力灵机 DM0 模型通过 MemoryVLA 和 Real-time VLA 技术，获得 NVIDIA 和 Pi 的认可，显著提升了机器人的智能和反应速...

为仅解码器嵌入模型优化GGUF

内容提要

关键要点

标签

继续阅读