💡
原文英文,约2000词,阅读约需8分钟。
📝
内容提要
每年约有1000名美国母亲同时遭受妊娠和分娩并发症,其中有700名母亲死亡,60%的死亡可以通过正确的医疗关注来预防。高风险妊娠不仅对人类生命构成风险,而且对家庭来说也是一种相当大的情感和经济负担。高风险妊娠的费用几乎是正常分娩结果的10倍。CareSource是美国最大的医疗补助提供商之一,旨在通过与医疗提供者合作,为患者提供挽救生命的产科护理。然而,CareSource面临无法使用全部历史数据来训练机器学习模型的挑战。
🎯
关键要点
- 每年约有1000名美国母亲遭受妊娠和分娩并发症,700名母亲死亡,60%的死亡可以预防。
- 高风险妊娠对家庭造成情感和经济负担,费用是正常分娩的10倍。
- CareSource是美国最大的医疗补助提供商之一,致力于提供挽救生命的产科护理。
- CareSource面临无法使用全部历史数据训练机器学习模型的挑战。
- CareSource的团队包括数据科学家和DevOps工程师,负责开发和支持机器学习管道。
- CareSource使用Azure Databricks进行环境设置,利用不同的Git分支管理开发、测试和生产环境。
- 高风险产科数据包含健康档案和经济稳定等因素,使用Databricks Feature Store存储清理和工程化的特征。
- 通过YAML文件管理特征选择和填补方法,简化实验过程。
- 使用分布式PySpark框架进行数据处理,并利用Hyperopt进行超参数调优。
- CareSource希望实现标准化和自动化的模型生产化框架,以加速模型部署。
- 使用Stacks工具生成标准化的CI/CD工作流,简化模型部署和测试过程。
- 在开发环境中,数据科学家可以自由创建特征分支进行模型开发。
- 在生产环境中,经过测试的模型会被注册并推送到生产。
- 通过Terraform实现基础设施即代码,简化模型管理和自动化测试。
- CareSource在约6周内建立了完整的机器学习开发和生产化架构。
- Stacks提供标准化且可定制的ML项目结构,支持数据科学家自助部署模型。
- CareSource的团队可以轻松扩展模板以支持其他机器学习用例,早期的团队协作至关重要。
➡️