The Keyword ·

Gemini Embedding 2：我们首个原生多模态嵌入模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

今天发布的Gemini Embedding 2是首个完全多模态的嵌入模型，支持文本、图像、视频、音频和文档的统一处理，提升多模态任务性能，适用于100多种语言。开发者可通过Gemini API和Vertex AI使用该模型。

🎯

关键要点

今天发布的Gemini Embedding 2是首个完全多模态的嵌入模型，支持文本、图像、视频、音频和文档的统一处理。
该模型适用于100多种语言，提升多模态任务性能。
Gemini Embedding 2能够处理多种输入，包括文本（最多8192个输入标记）、图像（每次请求最多6张）、视频（最多120秒）、音频（无需中间文本转录）和文档（最多6页PDF）。
模型支持同时处理多种模态的输入，捕捉不同媒体类型之间的复杂关系。
采用Matryoshka Representation Learning (MRL)技术，支持灵活的输出维度，推荐使用3072、1536、768维度以获得最佳质量。
Gemini Embedding 2在多模态深度上设立了新的性能标准，尤其在语音能力和文本、图像、视频任务上表现优异。
该模型为多种Google产品提供技术支持，帮助解锁高价值的多模态应用。
开发者可以通过Gemini API和Vertex AI开始使用Gemini Embedding 2，或通过LangChain等工具集成使用。

🏷️

继续阅读

我们找到的最佳马里奥日优惠
每年3月10日是马里奥日，庆祝任天堂的吉祥物马里奥。本周在亚马逊、百思买和GameStop等处可享受任天堂游戏和配件的优惠，优惠截止于3月15日。
Airbnb如何在360天内推出20多种本地支付方式
Airbnb通过“本地支付”计划，在14个月内整合了20多种支付方式，提升了用户体验和市场覆盖，改善了结账转化率，吸引了更多用户，增强了系统的可靠性和灵活性。
NVIDIA通过RTX PRO服务器虚拟化游戏开发
游戏开发团队利用NVIDIA RTX PRO服务器，通过虚拟化技术整合创意、工程和AI工作流程，提高资源利用率和团队协作。该服务器支持高性能3D图形和AI...
NVIDIA与ComfyUI在GDC上为游戏开发者和创作者简化本地AI视频生成
NVIDIA在旧金山的游戏开发者大会上发布了多项更新，简化了RTX AI PC的视频生成流程，包括ComfyUI的新应用视图和实时4K视频超分辨率功能，提...
英伟达的DLSS 4.5将于3月底推出，支持6倍帧生成
英伟达宣布，DLSS 4.5将于3月31日发布，支持RTX 50系列显卡。新功能可实现每帧生成最多6倍的额外帧。
每个网红最终都会变成商品店
塔克·卡尔森推出的商品吸引了不同群体的关注，尽管他的团队未回应销售情况。他的“纽约共产主义者”帽子引发幽默反应，成为与新受众接轨的方式，旨在建立在新公众群体中的存在感。

Gemini Embedding 2：我们首个原生多模态嵌入模型

内容提要

关键要点

标签

继续阅读