面向智算服务,构建可观测体系最佳实践
原文中文,约8700字,阅读约需21分钟。发表于: 。对于越来越火爆的人工智能领域来说,MLOps 是解决这一领域的系统工程,它结合了所有与机器学习相关的任务和流程,从数据管理、建模、持续部署的到运行时计算和资源管理。
阿里云在AI领域的产品布局和可观测体系建设。提供多个层次的产品满足不同场景需求。推出Prometheus云产品可观测监控生态,提供全栈可观测能力。介绍了AI可观测最佳实践,包括灵骏智算服务、ACK灵骏托管集群、阿里云人工智能平台PAI和模型服务灵机DashScope的监控能力。介绍了Smart Metrics和Text2PromQL两个可观测工具的应用场景和优势,并介绍了Prometheus的新计费模式。