💡
原文中文,约3500字,阅读约需9分钟。
📝
内容提要
SMT(表面贴装技术)是离散制造业中的一项关键技术,通过将电子元件直接贴装在印刷电路板上,提高了产品的可靠性和生产效率。SMT广泛应用于各类电子设备和产品中。文章介绍了一个SMT产线的数据处理流程,包括数据采集、ETL、机器学习模型训练等步骤。使用Python Shell处理数据效率低,而使用PySpark可以在30分钟内完成每日数据处理任务。通过多个Glue作业并行执行,可以在2天内处理一年的历史数据。
🎯
关键要点
- SMT(表面贴装技术)是离散制造业中的关键技术,提升了产品的可靠性和生产效率。
- SMT广泛应用于手机、计算机硬件、消费电子及汽车电子等领域。
- 某全球知名制造企业的灯塔工厂使用的SMT产线单条价值约2000万人民币。
- SiPlace贴片机每天产生大量操作和状态日志,业务侧希望将这些数据用于机器学习模型训练。
- 整体架构包括云边结合,边缘负责数据采集,云端负责数据ETL和模型开发。
- 生产线控制器每5分钟将日志传输到网关服务器,随后上传到AWS S3。
- Glue Workflow用于ETL日志,转换文件格式、清理数据并保存结果到S3。
- 使用Python Shell处理数据效率低,处理一天的数据需要6-7小时。
- 使用PySpark处理数据效率高,处理一天的数据仅需20-30分钟。
- 建议将CSV格式文件转换为Parquet格式,以提升查询效率。
- 通过多个Glue作业并行执行,可以在2天内处理一年的历史数据。
- Amazon Glue适合用于机器学习场景下模型训练数据的准备。
➡️