UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐
原文中文,约500字,阅读约需1分钟。发表于: 。利用实际世界的处理内存 (PIM) 硬件 UPMEM DPU,提出 UpDLRM,以增加内存带宽并减少推荐延迟。通过利用 DPU 内存的并行特性,可以为嵌入式查找中的大量不规则内存访问提供高聚合带宽,从而在推理时提供巨大潜力来降低延迟。通过研究嵌入式表分区问题,充分利用 DPU 内存带宽,实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集进行评估,UpDLRM 在 DLRM...
大规模数据集上的机器学习训练是昂贵和耗时的,处理器中心化系统面临性能下降和高能耗问题。内存中处理是解决数据移动瓶颈的解决方案。研究发现通用PIM体系结构可以替代CPU和GPU,但不能实现线性扩展。