Lyft重构机器学习平台，采用混合AWS SageMaker-Kubernetes方案

InfoQ ·

Lyft重构机器学习平台，采用混合AWS SageMaker-Kubernetes方案

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Lyft将其机器学习平台LyftLearn重构为混合系统，离线工作负载迁移至AWS SageMaker，在线模型服务保留在Kubernetes上。这一变革简化了操作复杂性，提高了工程效率，并支持数百万次日常预测，同时确保与现有ML代码兼容，减少基础设施事件，提升平台能力。

🎯

关键要点

Lyft将机器学习平台LyftLearn重构为混合系统，离线工作负载迁移至AWS SageMaker，在线模型服务保留在Kubernetes上。
这一变革简化了操作复杂性，提高了工程效率，并支持数百万次日常预测。
Lyft的工程师将LyftLearn Compute迁移至AWS SageMaker，消除了背景监视服务和集群自动扩展的挑战。
LyftLearn Serving仍然在Kubernetes上，保持了所需的性能和与内部工具的紧密集成。
Lyft选择SageMaker进行训练是因为管理自定义批处理计算基础设施消耗了大量工程能力。
LyftLearn支持数亿次日常预测，系统的操作复杂性随着规模的增长而增加。
SageMaker的托管基础设施直接解决了离线工作负载的痛点，采用事件驱动的状态管理。
Lyft构建了跨平台的Docker镜像，以在SageMaker中复制Kubernetes运行时环境。
最复杂的挑战是Spark在SageMaker Studio和EKS集群之间的双向通信需求。
迁移是逐个代码库部署的，两种基础设施并行运行，仅需最小的配置更改。
迁移后，Lyft报告基础设施事件减少，工程能力得以释放。

🏷️

继续阅读

Kubernetes的自我修复是如何工作的？通过破坏真实集群来理解自我修复
本文介绍了KubeLab，一个开源实验室，模拟七种故障以观察Kubernetes的自我修复能力。通过实际操作，用户将学习识别和处理生产环境中的故障模式。
OpenAI在1100亿美元多云交易中为Frontier平台获得AWS分销权
OpenAI宣布获得1100亿美元融资，亚马逊投资500亿美元成为其云平台独家分销商，重塑OpenAI的云战略。Azure保留无状态API的独占权，AWS...
文章：读-复制-更新（RCU）：无锁性能的秘密
RCU（读-复制-更新）通过消除读取路径中的锁开销，实现比传统锁高出十到三十倍的读取性能，适用于读多写少的场景。其三阶段模式允许读者无锁访问数据，写者则复...
AWS在EC2实例上引入嵌套虚拟化
AWS最近宣布支持在KVM和Hyper-V虚拟化的EC2实例中嵌套虚拟机，适用于C8i、M8i和R8i实例，主要用于应用仿真和硬件模拟。开发者可以运行移动...
当地媒体称伊朗使用无人机袭击AWS数据中心是故意为之因为AWS为美国提供情报支持
伊朗无人机袭击亚马逊AWS数据中心，称其为美国及盟友提供军事支持，导致中东多国企业服务中断。亚马逊建议客户备份和迁移数据，官方未承认责任，可能影响未来投资。
解决浏览器 WebSocket 认证难题：豆包语音识别的代理方案实践
本文探讨了如何通过后端代理解决浏览器 WebSocket API 不支持自定义 HTTP header 的问题，特别是在豆包语音识别服务中。采用后端代理方...

Lyft重构机器学习平台，采用混合AWS SageMaker-Kubernetes方案

内容提要

关键要点

标签

继续阅读