蓝点网 ·

谷歌宣布扩展Gemini API中的文件搜索功能为开发者带来更完整的多模态RAG能力

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

谷歌扩展了Gemini API的文件搜索功能，增强了多模态检索能力。新功能支持图像与文本混合检索、自定义元数据过滤和页面级引用，提高了AI在企业知识库和文档问答中的准确性。开发者可直接使用Gemini API，无需复杂的向量数据库，适合构建企业级知识助手和客服机器人。

🎯

🔎

Gemini API的新功能支持图像与文本的混合检索，这意味着企业在处理包含视觉内容的文档时，AI能够更全面地理解信息。这种能力特别适合需要分析图表、设计图等视觉材料的行业，提升了信息检索的准确性和上下文理解。

新增的自定义元数据过滤功能允许开发者为文件添加标签和分类，这在大型知识库管理中尤为重要。通过有效的元数据管理，企业可以显著提高检索效率，减少无关信息的干扰，从而优化用户体验。

页面级引用功能使得AI在回答问题时能够明确指出信息来源的具体页面，这增强了内容的可信度。用户可以直接查看相关文档，验证信息的准确性，这对于需要高可靠性信息的企业应用尤为关键。

❓

新功能支持图像与文本混合检索、自定义元数据过滤和页面级引用，显著提升AI在企业知识库中的准确性。

开发者可以直接使用Gemini API，无需搭建复杂的向量数据库，完成完整的RAG工作流。

自定义元数据过滤可以提高检索准确率和效率，适合大型知识库管理，减少无关内容。

页面级引用功能允许用户查看信息来源的具体文档页面，增强内容的准确性和可验证性。

适合构建企业级知识助手、客服机器人、文档分析系统及AI智能体等场景。

新版Google Gemini API文件搜索功能已向所有开发者开放，开发者可以通过Google AI Studio和Google Cloud体验。

🏷️