The Keyword ·

Gemini API 文件搜索现已支持多模态：构建高效、可验证的检索增强生成系统

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

谷歌扩展了Gemini API的文件搜索工具，支持多模态数据和自定义元数据，提升了检索增强生成系统的能力。新功能包括图像与文本的联合处理和页面引用，帮助用户更准确地找到信息并验证来源，使应用程序在处理大量数据时更高效、可靠。

🎯

🔎

Gemini API的新功能支持图像与文本的联合处理，使得用户能够通过自然语言描述来搜索视觉资产。这种方式不仅提高了检索的准确性，还能更好地满足创意行业对特定视觉风格的需求，提升了工作效率。

通过自定义元数据，用户可以为非结构化数据添加关键标签，从而在检索时快速过滤掉无关信息。这种方法在处理大量数据时尤为重要，能够显著提高检索速度和准确性，帮助用户更高效地找到所需文件。

新功能中的页面引用机制增强了信息的透明度，用户可以清楚地看到模型回答的来源。这种细致的引用方式不仅有助于用户进行事实核查，还能提升对工具的信任度，尤其在需要严格验证信息的场合。

❓

Gemini API的文件搜索工具现在支持多模态数据和自定义元数据，包括图像与文本的联合处理和页面引用功能。

用户可以通过自然语言描述搜索特定的视觉资产，而不再依赖关键词或文件名，从而实现多模态数据的检索。

自定义元数据允许用户为非结构化数据附加关键值标签，提高检索的速度和准确性，帮助过滤无关文档。

Gemini API通过将模型的响应与原始来源直接关联，并捕捉每个索引信息的页码，增强了信息的透明度和可信度。

该工具适合用于原型开发或大规模生产应用，能够高效处理和组织文本与视觉数据。

用户可以通过查看开发者指南和Gemini API文档来开始使用文件搜索工具。

🏷️