在AI Gateway上按成本、延迟或吞吐量对提供者进行排序

在AI Gateway上按成本、延迟或吞吐量对提供者进行排序

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

AI Gateway 允许用户根据成本、首次令牌时间(TTFT)或吞吐量(TPS)对模型提供者进行排序,以优化请求,选择最低成本或最低延迟的提供者。排序在请求时计算,并支持与其他路由选项结合使用,确保高效处理。

🎯

关键要点

  • AI Gateway 允许用户根据成本、首次令牌时间(TTFT)或吞吐量(TPS)对模型提供者进行排序。

  • 默认的提供者顺序结合了提供者的可靠性、模型输出质量、成本和响应速度。

  • 排序在请求时计算,支持新添加的提供者、价格变化和延迟或吞吐量的变化自动更新。

  • 用户可以通过设置 providerOptions.gateway 的值为 'cost'、'ttft' 或 'tps' 来选择排序标准。

  • 排序功能与其他路由选项兼容,例如零数据保留(ZDR),可以优化请求的处理。

  • 每个响应都包含排序元数据,显示考虑的提供者、用于排名的指标值、尝试的顺序以及因健康状况下降而被降级的提供者。

延伸问答

AI Gateway如何对模型提供者进行排序?

AI Gateway允许用户根据成本、首次令牌时间(TTFT)或吞吐量(TPS)对模型提供者进行排序。

如何选择排序标准?

用户可以通过设置providerOptions.gateway的值为'cost'、'ttft'或'tps'来选择排序标准。

排序功能如何与其他路由选项兼容?

排序功能与其他路由选项兼容,例如零数据保留(ZDR),可以优化请求的处理。

排序在请求时是如何计算的?

排序在请求时计算,支持新添加的提供者、价格变化和延迟或吞吐量的变化自动更新。

响应中包含哪些排序元数据?

每个响应都包含排序元数据,显示考虑的提供者、用于排名的指标值、尝试的顺序以及因健康状况下降而被降级的提供者。

在高成本或速度变化的情况下,如何优化请求?

可以使用排序功能来优化请求,选择最低成本或最低延迟的提供者。

➡️

继续阅读