加速视觉-语言模型:Habana Gaudi2上的BridgeTower
原文英文,约2000词,阅读约需8分钟。发表于: 。Optimum Habana v1.6在Habana Gaudi2上对BridgeTower进行微调时,相比A100实现了超过3倍的加速。这种性能提升归因于硬件加速的数据加载和快速的DDP实现。BridgeTower引入了多个桥接层,以实现视觉和文本表示之间的有效交叉模态对齐和融合。BridgeTower在使用400万张图像进行预训练后,在各种视觉-语言任务上实现了最先进的性能。Habana Gaudi2和Nvidia A100在硬件方面进行了比较。基准测试结果显示,Gaudi2比A100更快,并且将更多资源分配给数据加载可以实现加速。Optimum Habana的快速DDP被介绍为在Gaudi上加速分布式运行的策略。硬件加速的数据加载被讨论为通过将数据加载操作移至加速器设备来进一步提高速度的方法。基准测试结果展示了这些优化所实现的显著加速。