本文介绍了如何将AI服务与Knative技术相结合,提高运维效率和降低资源成本。Knative是基于Kubernetes的开源Serverless应用架构,实现自动弹性、灰度发布等功能。数禾科技通过Knative部署500+AI模型服务,节约了60%的资源成本。文章还介绍了Knative的原理、应用模型和技巧,以及数禾科技的最佳实践和阿里云容器服务Knative的产品化能力。
Knative是基于Kubernetes的开源Serverless应用编排框架,提供自动弹性和缩容到0的能力,支持精准弹性和弹性预测,提供资源预热和保留资源池的功能,支持基于CPU和内存的自动弹性,提供弹性插件机制。阿里云容器服务Knative还支持精准弹性扩缩容和弹性预测能力。
数禾科技采用阿里云ASK部署线上模型,解决了模型在线推理服务数量增加导致的资源浪费和维护升级成本高的问题。ASK提供免运维、自动弹性、按需付费等优势,支持多版本管理、镜像加速,助力模型快速发布迭代。通过ASK+Knative解决Stable Diffusion的单个Pod处理请求的吞吐率有限和GPU资源按需使用的问题,实现基于并发精准弹性,缩容到0,资源按需使用,打造生产可用的Stable Diffusion服务。ASK提供了可观测能力,监控数据包括请求量、请求成功率、响应延迟等。
Serverless是一种云计算服务模型,通过事件驱动的方式运行应用代码,解决资源托管、调度、运维管理等问题。华为云Serverless通过技术解决冷启动和弹性问题,具有按用计费、按需计费、自动弹性和免运维等优势。案例包括Mock服务接入Serverless、视频业务基于函数实现BFF模式和基于Serverless构建的视频转码服务。未来,边缘、中间件、托管、大数据将全面Serverless化。
完成下面两步后,将自动完成登录并继续当前操作。