英特尔AMX助力阿里云提升推荐模型性能
💡
原文中文,约5000字,阅读约需12分钟。
📝
内容提要
阿里云PAI团队研发了PAI-REC全链路解决方案,通过优化模型训练和推理,提升了推荐系统的速度和效率。采用英特尔® 第四代至强® 可扩展处理器Sapphire Rapids(SPR)和英特尔® AMX技术,提高了矩阵乘法的计算效率。使用BFloat16浮点格式和算子融合优化,降低了内存占用和计算开销。通过特征计算优化和图优化,进一步提升了性能。阿里云和英特尔将继续合作,探索创新方式来优化软硬件集成,提升深度学习模型的性能。
🎯
关键要点
- 推荐系统在电商、短视频、新闻、广告等行业广泛应用,能够提升用户浏览体验。
- 现代推荐系统使用深度学习模型,但模型参数量和计算复杂度增加,给训练和推理带来挑战。
- 阿里云PAI团队研发了PAI-REC全链路解决方案,帮助用户快速构建推荐系统。
- PAI-REC平台包含特征构建、模型训练和在线服务等功能,使用EasyRec算法框架和EasyRec Processor。
- EasyRec推荐算法框架支持多种推荐算法模型,并提供超参搜索功能。
- EasyRec Processor负责模型推理,能够实时获取特征更新。
- 与英特尔合作,通过硬件优化提升模型训练速度和推理效率,降低响应时间。
- 使用英特尔第四代至强处理器和AMX技术优化矩阵乘法计算效率。
- BFloat16浮点格式用于降低存储需求,提高计算速度,支持快速转换。
- 算子融合和图优化技术提升了推荐模型的性能,减少了计算开销。
- 特征计算优化通过新设计的StringSplitOp加速字符串解析,提高训练速度。
- 优化方案已在多个客户场景落地,显著提升了性能。
- 英特尔和阿里云将继续合作,探索软硬件集成的创新方式,提升深度学习模型性能。
- 英特尔推出第五代至强处理器,进一步提升AI性能和整体性能。
➡️