在Gemini API中平衡成本与可靠性的全新方式

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

Gemini API新增Flex和Priority服务层,Flex适用于延迟容忍的背景任务,价格降低50%;Priority确保关键应用的高可靠性,适合实时支持和敏感请求。

🎯

关键要点

  • Gemini API新增Flex和Priority服务层,提供成本和可靠性的细粒度控制。
  • Flex适用于延迟容忍的背景任务,价格降低50%。
  • Priority确保关键应用的高可靠性,适合实时支持和敏感请求。
  • Flex推理是为延迟容忍工作负载设计的成本优化层,提供50%的价格节省。
  • Flex是同步接口,简化了输入/输出管理。
  • Priority推理提供最高的可靠性,确保重要流量在高峰期不被抢占。
  • 如果Priority流量超过限制,溢出请求将自动转为标准层处理,确保业务连续性。
  • API响应指示请求的服务层,提供性能和计费的透明度。

延伸问答

Gemini API新增了哪些服务层?

Gemini API新增了Flex和Priority服务层。

Flex服务层适合什么类型的任务?

Flex服务层适用于延迟容忍的背景任务。

Priority服务层的主要优势是什么?

Priority服务层提供最高的可靠性,确保关键应用在高峰期不被抢占。

使用Flex服务层可以节省多少成本?

使用Flex服务层可以节省50%的成本。

如果Priority流量超过限制,会发生什么?

如果Priority流量超过限制,溢出请求将自动转为标准层处理,确保业务连续性。

如何开始使用Flex服务层?

只需在请求中配置service_tier参数即可开始使用Flex服务层。

➡️

继续阅读