Jina AI ·

Llama.cpp 和 GGUF 中的多模态嵌入

💡 原文英文，约2600词，阅读约需10分钟。

📝

内容提要

jina-embeddings-v4推出了先进的多模态嵌入，支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp，实现了多模态嵌入的生成，解决了图像处理和注意力机制的问题。调试后，llama.cpp模型的嵌入结果与参考模型相近，未来可优化视觉编码器和支持多向量嵌入。

🎯

关键要点

jina-embeddings-v4推出了先进的多模态嵌入，支持文本、图像和复杂文档的向量搜索。
通过修改llama.cpp，实现了多模态嵌入的生成，解决了图像处理和注意力机制的问题。
llama.cpp支持图像输入，但不支持多模态输入，因此进行了相应的修改。
在处理多模态输入时，llama.cpp使用了特定的标记和编码方式。
注意力机制的不同类型（因果注意力和非因果注意力）影响了模型的处理方式。
调试过程中发现llama.cpp的ViT实现与参考模型存在显著差异。
通过修复注意力掩码和图像处理步骤，llama.cpp的嵌入结果与参考模型相近。
在ViDoRe任务的基准测试中，llama.cpp模型的表现与参考模型相似。
未来的改进方向包括量化视觉编码器、将视觉编码器分离为独立服务，以及支持多向量嵌入。
尽管存在初始的错误和问题，现有的多模态嵌入集成结果已接近参考模型，且量化版本在资源使用上更为高效。

❓

延伸问答

什么是多模态嵌入？

多模态嵌入是指能够处理文本、图像和复杂文档的向量表示，用于向量搜索。

llama.cpp是如何实现多模态嵌入的？

通过修改llama.cpp，允许其接受base64编码的图像，从而支持多模态输入。

llama.cpp与参考模型在嵌入结果上有什么差异？

llama.cpp的嵌入结果与参考模型存在显著差异，主要体现在ViT实现和注意力机制上。

在处理多模态输入时，llama.cpp使用了什么标记和编码方式？

llama.cpp使用特定的标记，如<|vision_start|>和<|vision_end|>，并将图像标记替换为-1进行编码。

未来对llama.cpp的多模态嵌入有哪些改进方向？

未来的改进包括量化视觉编码器、将视觉编码器分离为独立服务，以及支持多向量嵌入。

llama.cpp在ViDoRe任务中的表现如何？

在ViDoRe任务的基准测试中，llama.cpp模型的表现与参考模型相似，平均准确率接近。

🏷️

继续阅读

【开源许可与版权工程】文档、数据、模型的许可：CC、ODbL、OpenRAIL、LLaMA 协议
本文探讨了开源许可证在非代码资产（如文档、数据和模型权重）中的应用，尤其是在大规模语言模型和生成式AI背景下。传统软件许可证（如MIT、Apache）已无...
持久化数据结构：函数式世界的基石
持久化数据结构与传统数据结构不同，每次修改都会生成新版本并保留旧版本，核心在于结构共享以避免深拷贝。持久化分为部分持久化、完全持久化和汇合持久化，常用的实...
【Linux 网络子系统深度拆解】Netfilter 内核实现：钩子、conntrack 与 NAT
Netfilter 是 Linux 内核中的网络包处理框架，负责数据包的处理方式。它通过五个钩子点在数据包收发路径中插入回调函数，允许对数据包进行放行、丢...
【可观测性工程】可观测性全景：Metrics、Logs、Traces、Profiles、Events 五大支柱
可观测性是现代系统管理的重要概念，包含指标、日志、追踪、性能剖析和事件五大支柱。这些支柱帮助工程师理解系统状态和故障原因，强调系统设计的属性。通过有效的数...
【可观测性工程】可观测性 vs 监控：从 Zabbix/Nagios 到 OpenTelemetry 的二十年
监控与可观测性是不同的概念，监控关注预设问题和指标，而可观测性能够回答任意问题。传统的监控工具如Nagios和Zabbix逐渐被Prometheus和Op...
【可观测性工程】指标体系设计：USE、RED、Golden Signals 与业务 KPI
本文探讨了监控指标体系的设计，包括USE、RED、Golden Signals和业务KPI四种方法论。USE关注资源监控，RED关注请求处理，Golden...