蓝点网 ·

谷歌正式推出Gemini 1.5 Pro 能够理解音频支持系统指令/JSON模式

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

谷歌宣布全球推出Gemini 1.5 Pro模型，具有音频理解能力和1M上下文窗口。新增系统指令和JSON功能，提供更好的模型控制。Gemini 1.5 Pro的输入模式扩展到音频和视频，支持系统指令功能和JSON模式。开发者可通过Gemini API访问下一代文本嵌入模型。谷歌官方博客链接：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

🎯

关键要点

谷歌宣布全球推出Gemini 1.5 Pro模型，具有音频理解能力和1M上下文窗口。
Gemini 1.5 Pro新增系统指令和JSON功能，提供更好的模型控制。
开发者可通过Gemini API访问下一代文本嵌入模型。
Gemini 1.5 Pro的输入模式扩展到音频和视频，支持系统指令功能和JSON模式。
系统指令功能允许开发者定义角色、格式、目标和规则，引导模型响应。
JSON模式可以从文本或图像中提取结构化数据，支持cURL和未来的Python SDK。
开发者可以选择模式限制模型输出，提高可靠性。
新嵌入式模型在MTEB基准测试中表现更强，开发者可通过Gemini API访问。

❓

延伸问答

Gemini 1.5 Pro模型的主要功能是什么？

Gemini 1.5 Pro模型具有音频理解能力、1M上下文窗口，并新增系统指令和JSON功能。

开发者如何使用Gemini API？

开发者可以通过Google Ai Studio创建和访问API密钥，然后调用Gemini API进行构建。

Gemini 1.5 Pro支持哪些输入模式？

Gemini 1.5 Pro支持音频和视频输入模式，能够对上传的音频和视频进行推理。

系统指令功能如何帮助开发者？

系统指令功能允许开发者定义角色、格式、目标和规则，以引导模型的响应。

JSON模式的主要特点是什么？

JSON模式使模型输出为JSON对象，可以从文本或图像中提取结构化数据。

Gemini 1.5 Pro在性能上有什么改进？

Gemini 1.5 Pro的新嵌入式模型在MTEB基准测试中表现更强，提供更好的检索性能。

🏷️