谷歌正式推出Gemini 1.5 Pro 能够理解音频支持系统指令/JSON模式

💡 原文中文,约1000字,阅读约需3分钟。
📝

内容提要

谷歌宣布全球推出Gemini 1.5 Pro模型,具有音频理解能力和1M上下文窗口。新增系统指令和JSON功能,提供更好的模型控制。Gemini 1.5 Pro的输入模式扩展到音频和视频,支持系统指令功能和JSON模式。开发者可通过Gemini API访问下一代文本嵌入模型。谷歌官方博客链接:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

🎯

关键要点

  • 谷歌宣布全球推出Gemini 1.5 Pro模型,具有音频理解能力和1M上下文窗口。
  • Gemini 1.5 Pro新增系统指令和JSON功能,提供更好的模型控制。
  • 开发者可通过Gemini API访问下一代文本嵌入模型。
  • Gemini 1.5 Pro的输入模式扩展到音频和视频,支持系统指令功能和JSON模式。
  • 系统指令功能允许开发者定义角色、格式、目标和规则,引导模型响应。
  • JSON模式可以从文本或图像中提取结构化数据,支持cURL和未来的Python SDK。
  • 开发者可以选择模式限制模型输出,提高可靠性。
  • 新嵌入式模型在MTEB基准测试中表现更强,开发者可通过Gemini API访问。
🏷️

标签

➡️

继续阅读