InfoQ ·

谷歌DeepMind推出EmbeddingGemma，一个开放的设备嵌入模型

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind推出了EmbeddingGemma，一个308M参数的开放嵌入模型，旨在高效地在设备上运行。该模型支持离线检索增强生成、语义搜索和文本分类，适合隐私敏感场景，并在MTEB基准测试中表现优异，支持100多种语言。开发者可根据需求调整输出维度并进行微调。

🎯

谷歌DeepMind推出了EmbeddingGemma，一个308M参数的开放嵌入模型，旨在高效地在设备上运行。
该模型支持离线检索增强生成、语义搜索和文本分类，适合隐私敏感场景。
EmbeddingGemma在MTEB基准测试中表现优异，支持100多种语言，且量化后可在200MB RAM内运行。
开发者可以根据需求调整输出维度（从768到128），以实现不同的速度和存储权衡，同时保持质量。
EmbeddingGemma适用于离线和隐私敏感场景，如本地搜索个人文件、运行移动RAG管道或构建特定领域的聊天机器人。
该模型已与transformers.js、llama.cpp、MLX、Ollama、LiteRT和LMStudio等工具集成。
谷歌将EmbeddingGemma定位为其更大服务器端Gemini嵌入模型的补充，为开发者提供离线高效嵌入和通过Gemini API提供的大规模嵌入之间的选择。

🔎

EmbeddingGemma特别适合隐私敏感的应用场景，如本地搜索个人文件和构建行业特定的聊天机器人。由于模型在设备上处理数据，用户的敏感信息无需上传至云端，从而降低了数据泄露的风险。

开发者可以根据需求调整EmbeddingGemma的输出维度，从768到128，以实现不同的速度和存储权衡。这种灵活性使得模型能够适应多种应用场景，满足不同性能需求。

EmbeddingGemma已与多种开发工具集成，如transformers.js和Ollama。这种兼容性使得开发者能够更方便地将该模型应用于现有项目，提升开发效率。

❓

EmbeddingGemma主要用于离线检索增强生成、语义搜索和文本分类，适合隐私敏感场景。

EmbeddingGemma有308M个参数。

开发者可以将输出维度调整从768到128，以实现不同的速度和存储权衡。

EmbeddingGemma在MTEB基准测试中表现优异，是500M参数以下的开放多语言嵌入模型中表现最好的。

EmbeddingGemma适合离线和隐私敏感场景，如本地搜索个人文件和构建特定领域的聊天机器人。

EmbeddingGemma已与transformers.js、llama.cpp、MLX、Ollama、LiteRT和LMStudio等工具集成。

🏷️