基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用
原文中文,约5700字,阅读约需14分钟。发表于: 。数禾科技 AI 模型服务基于云原生架构,为不同业务环节提供智能决策支持。随着业务的快速发展,摆在数禾面前的难题是支撑模型计算的底层应用资源无法根据请求量来调整机器资源支持运算能力。同时,随着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以管理。这种状况不仅导致了资源浪费,还增加了维护和升级的成本。
数禾科技采用阿里云ASK部署线上模型,解决了模型在线推理服务数量增加导致的资源浪费和维护升级成本高的问题。ASK提供免运维、自动弹性、按需付费等优势,支持多版本管理、镜像加速,助力模型快速发布迭代。通过ASK+Knative解决Stable Diffusion的单个Pod处理请求的吞吐率有限和GPU资源按需使用的问题,实现基于并发精准弹性,缩容到0,资源按需使用,打造生产可用的Stable Diffusion服务。ASK提供了可观测能力,监控数据包括请求量、请求成功率、响应延迟等。