Zettabyte与光宝科技合作研发Ultra Edge Pod,作为蜂窝基站的分布式边缘AI推理平台。光宝提供基础设施,Zettabyte负责软件,旨在提升AI推理效率并降低延迟。
NVIDIA的推理平台通过NIM微服务、Triton推理服务器和TensorRT库提升了AI推理性能,简化模型部署并优化性能。与主要云服务提供商的合作确保了云端部署的无缝性,推动了AI服务的普及,提高了用户体验和业务效率。
KServe是一个在Kubernetes上的推理平台,专为高度可扩展的场景而构建。它支持现代Serverless推理工作负载,可以在任意框架上提供机器学习模型服务。KServe提供高性能、高度抽象的接口,支持常见的ML框架,并封装了自动缩放、网络、健康检查和服务配置的复杂性。KServe考虑使用Fluid来提供弹性支持,Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,可以服务于云原生场景下的数据密集型应用。阿里云容器服务团队和KServe、Fluid社区一起探索在阿里云Serverless Kubernetes平台上支持大型语言模型的简单、方便、高性能、生产级别的部署。他们提供了一些实践步骤,包括开启KServe on ASM功能、安装ACK-Fluid并开启AI模型缓存加速、部署AI模型推理服务等。最后,他们进行了性能基准测试,发现Fluid可以大幅提升KServe的冷启动速度,特别是在大型语言模型的场景下。
完成下面两步后,将自动完成登录并继续当前操作。