Jina AI ·

Llama.cpp 和 GGUF 中的多模态嵌入

💡 原文英文，约2600词，阅读约需10分钟。

📝

内容提要

jina-embeddings-v4推出了先进的多模态嵌入，支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp，实现了多模态嵌入的生成，解决了图像处理和注意力机制的问题。调试后，llama.cpp模型的嵌入结果与参考模型相近，未来可优化视觉编码器和支持多向量嵌入。

🎯

关键要点

jina-embeddings-v4推出了先进的多模态嵌入，支持文本、图像和复杂文档的向量搜索。
通过修改llama.cpp，实现了多模态嵌入的生成，解决了图像处理和注意力机制的问题。
llama.cpp支持图像输入，但不支持多模态输入，因此进行了相应的修改。
在处理多模态输入时，llama.cpp使用了特定的标记和编码方式。
注意力机制的不同类型（因果注意力和非因果注意力）影响了模型的处理方式。
调试过程中发现llama.cpp的ViT实现与参考模型存在显著差异。
通过修复注意力掩码和图像处理步骤，llama.cpp的嵌入结果与参考模型相近。
在ViDoRe任务的基准测试中，llama.cpp模型的表现与参考模型相似。
未来的改进方向包括量化视觉编码器、将视觉编码器分离为独立服务，以及支持多向量嵌入。
尽管存在初始的错误和问题，现有的多模态嵌入集成结果已接近参考模型，且量化版本在资源使用上更为高效。

🏷️

继续阅读

.NET 9 + AOT 打造跨平台批量图像转换工具
该项目是一个基于.NET 9的开源C#图像处理工具，支持格式转换、尺寸调整和智能压缩，具备零依赖、跨平台和高性能特点，适用于桌面和Web应用。
元宵节之后，再无不奋斗的理由
春节后，职场逐渐复工，正月初八后大部分门店开张，元宵节后工厂全面复工。一线工人返岗，城市活力恢复，许多人选择本地就业，减少外流。祝大家元宵节快乐，努力奋斗。
Umair Shahid：将PostgreSQL高可用性视为分层设计
PostgreSQL的高可用性应采用分层设计，首先明确故障范围、恢复点目标（RPO）和恢复时间目标（RTO）。从单主节点开始，逐步引入离线备份、WAL归档...
语言模型是商品吗？
近年来，语言模型的获取方式变得几乎免费，成为新兴商品。然而，可靠性、隐私保护和特定领域适应性仍是高端产品的特点，使得“商品”一词在语言模型中存在争议。
将AI应用从原型转向生产需要企业级Postgres基础设施
AI应用在数据库限制、集成复杂性和合规性方面面临挑战，尤其在金融和医疗等受监管行业。pgEdge推出企业级Postgres基础设施，以支持AI应用的安全性...
AI编码代理可以编写代码，Crafting希望帮助他们交付
Crafting CEO Sumeet Vaidya表示，六到九个月前，大家关注AI代理的快速代码生成，但他和联合创始人意识到，工程组织在扩展时面临协调和资源使用等挑战。

Llama.cpp 和 GGUF 中的多模态嵌入

内容提要

关键要点

标签

继续阅读