亚马逊AWS官方博客 ·

用 Amazon SageMaker AI 与 Qualcomm AI Hub 打通从云端训练到端侧神经处理单元（NPU）的交付闭环

💡 原文中文，约14400字，阅读约需35分钟。

📝

内容提要

本文介绍了如何结合Amazon SageMaker AI与Qualcomm AI Hub，实现从云端训练到端侧NPU的端到端工作流。通过微调模型并在真实设备上进行编译与验证，整个过程可在约20分钟内完成，显著缩短了AI项目的上线时间。以手机人像分割为例，最终在Galaxy S24上实现了13.59毫秒的推理延迟，展示了该方案的高效性与实用性。

🎯

关键要点

结合 Amazon SageMaker AI 与 Qualcomm AI Hub 实现从云端训练到端侧 NPU 的端到端工作流。
通过微调模型并在真实设备上进行编译与验证，整个过程可在约 20 分钟内完成。
以手机人像分割为例，最终在 Galaxy S24 上实现了 13.59 毫秒的推理延迟。
该方案显著缩短了 AI 项目的上线时间，提高了效率与实用性。
开发者可以在一个 Jupyter Notebook 中完成整个工作流，简化了操作步骤。

🔎

延伸解读

端到端工作流的优势

结合Amazon SageMaker AI与Qualcomm AI Hub的端到端工作流，显著提高了AI项目的开发效率。通过在一个Jupyter Notebook中完成从模型训练到端侧验证的全过程，开发者可以在约20分钟内完成复杂的AI任务，极大缩短了项目上线时间。

真机验证的重要性

在AI模型的开发过程中，真机验证是确保模型性能的关键步骤。不同设备间的硬件差异可能导致性能显著不同，因此使用AI Hub提供的真实设备进行验证，可以确保模型在实际应用中的可靠性和准确性。

量化与模型优化的挑战

在将模型部署到端侧时，量化过程可能影响模型的推理精度。开发者需要特别关注量化对边缘细节的影响，确保在量化后模型仍能满足应用需求。建议在量化过程中进行充分的验证，以避免性能下降。

❓

延伸问答

如何使用 Amazon SageMaker AI 和 Qualcomm AI Hub 实现端到端工作流？

通过在 SageMaker AI 上完成模型微调，然后利用 Qualcomm AI Hub 进行模型编译和真机验证，整个过程可以在一个 Jupyter Notebook 中完成。

这个方案的主要优势是什么？

该方案显著缩短了 AI 项目的上线时间，从训练到部署可在约 20 分钟内完成，提高了效率与实用性。

在 Galaxy S24 上运行模型的推理延迟是多少？

在 Galaxy S24 上，经过微调后的模型实现了 13.59 毫秒的推理延迟。

开发者在使用该方案时需要注意哪些挑战？

开发者可能面临模型定制、针对特定芯片的优化以及真机验证的成本等挑战。

如何在 SageMaker AI 上进行模型微调？

开发者可以使用 SageMaker AI 的训练 API，按需获取分布式训练集群完成模型微调。

该方案适用于哪些应用场景？

该方案可以应用于手机人像分割、光学字符识别、关键词唤醒、目标检测等多种场景。

🏷️