亚马逊AWS官方博客 ·

Amazon SageMaker HyperPod 存储设计与实践（二）

Q: 对于小规模模型训练，推荐使用什么存储方案？

建议使用 S3 进行全量存储。

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

本文探讨了在 Amazon SageMaker HyperPod 中实现 S3 挂载点支持的方法，包括客户端安装、挂载脚本和检查挂载状态。通过生命周期配置，集群创建时可自动挂载 S3，确保计算节点故障后训练任务无缝继续。对于不同规模的模型训练，小模型建议使用 S3 进行全量存储，大模型则推荐采用 FSx for Lustre 分片存储，以提升写入性能。

🎯

关键要点

在 SageMaker HyperPod 中实现 MountPoint for S3 支持，能够快速从 S3 按需读取数据进行训练。
通过安装 MountPoint for S3 客户端、创建挂载脚本和检查挂载状态的服务，实现 S3 的自动挂载。
集群启动时自动挂载存储可以确保计算节点故障后训练任务无缝继续，提升任务的连续性。
对于小规模模型训练，建议使用 S3 进行全量存储；对于大规模模型，推荐使用 FSx for Lustre 分片存储以提高写入性能。
在训练过程中，检查点的写入性能对训练时长有重要影响，建议根据模型规模选择合适的存储方案。

❓

延伸问答

如何在 Amazon SageMaker HyperPod 中实现 S3 挂载点支持？

通过安装 MountPoint for S3 客户端、创建挂载脚本和检查挂载状态的服务，可以实现 S3 的自动挂载。

集群启动时自动挂载存储有什么好处？

自动挂载存储可以确保计算节点故障后训练任务无缝继续，提升任务的连续性。

对于小规模模型训练，推荐使用什么存储方案？

建议使用 S3 进行全量存储。

大规模模型训练时，如何提高写入性能？

推荐使用 FSx for Lustre 分片存储，以提升写入性能。

检查点的写入性能对训练时长有什么影响？

检查点的写入性能对训练时长有重要影响，建议根据模型规模选择合适的存储方案。

如何确保训练任务在节点故障后继续执行？

通过 Lifecycle 脚本实现自动存储挂载，确保计算节点发生故障后训练任务可以无缝继续。

🏷️