Pinterest公布了其使用开源分布式计算框架Ray现代化机器学习基础设施的旅程。Pinterest在将Ray集成到其生产环境中遇到了挑战,但通过自定义解决方案和用户界面的开发,成功简化了Ray集群的配置和管理。DoorDash也经历了类似的旅程,但两者的部署策略略有不同。Pinterest和DoorDash都强调了可观察性和监控的重要性,并报告了在灵活性、开发速度和性能方面的显著改进。
AWS和NVIDIA合作推出了Amazon EC2 P5实例,采用NVIDIA H100 Tensor Core GPU,可提供高性能和可扩展性,训练时间最多可缩短6倍。P5实例适用于生成式人工智能应用程序和HPC工作负载,可加速训练和推理。P5实例还提供高带宽GPU内存、AMD EPYC处理器、本地存储空间等功能。可在EC2 UltraClusters中部署,提供更低的延迟和更大规模的机器学习基础设施。客户可以使用DLAMI、Amazon ECS、Amazon EKS和Amazon SageMaker等工具来运行容器化应用程序和训练模型。P5实例已在美国东部和美国西部区域推出。
完成下面两步后,将自动完成登录并继续当前操作。