通过AI Gateway访问实时模型性能指标

通过AI Gateway访问实时模型性能指标

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

AI Gateway提供数百个模型的实时吞吐量和延迟指标,帮助用户选择合适的模型。指标每小时更新,用户可在模型列表和详细页面查看最佳P50性能,并通过REST API进行程序化访问。

🎯

关键要点

  • AI Gateway提供数百个模型的实时吞吐量和延迟指标,帮助用户选择合适的模型。
  • 指标每小时更新,用户可在模型列表和详细页面查看最佳P50性能。
  • 模型列表中包含可排序的延迟和吞吐量列,显示每个模型的最佳P50指标。
  • 用户可以通过延迟和吞吐量排序,找到最快的令牌生成模型或最快的首次令牌时间模型。
  • 模型详细页面显示每个提供商的P50延迟和吞吐量,帮助用户比较不同提供商的性能。
  • REST API提供程序化访问,用户可以获取指定模型的实时P50和P95延迟及吞吐量。
  • 用户可以通过API查询完整的模型列表和指标。
➡️

继续阅读