在Gemini API中平衡成本与可靠性的全新方式
💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
Gemini API新增Flex和Priority服务层,Flex适用于延迟容忍的背景任务,价格降低50%;Priority确保关键应用的高可靠性,适合实时支持和敏感请求。
🎯
关键要点
- Gemini API新增Flex和Priority服务层,提供成本和可靠性的细粒度控制。
- Flex适用于延迟容忍的背景任务,价格降低50%。
- Priority确保关键应用的高可靠性,适合实时支持和敏感请求。
- Flex推理是为延迟容忍工作负载设计的成本优化层,提供50%的价格节省。
- Flex是同步接口,简化了输入/输出管理。
- Priority推理提供最高的可靠性,确保重要流量在高峰期不被抢占。
- 如果Priority流量超过限制,溢出请求将自动转为标准层处理,确保业务连续性。
- API响应指示请求的服务层,提供性能和计费的透明度。
❓
延伸问答
Gemini API新增了哪些服务层?
Gemini API新增了Flex和Priority服务层。
Flex服务层适合什么类型的任务?
Flex服务层适用于延迟容忍的背景任务。
Priority服务层的主要优势是什么?
Priority服务层提供最高的可靠性,确保关键应用在高峰期不被抢占。
使用Flex服务层可以节省多少成本?
使用Flex服务层可以节省50%的成本。
如果Priority流量超过限制,会发生什么?
如果Priority流量超过限制,溢出请求将自动转为标准层处理,确保业务连续性。
如何开始使用Flex服务层?
只需在请求中配置service_tier参数即可开始使用Flex服务层。
➡️