Habana Gaudi 处理器上大型语言模型的基准测试与深入性能研究
原文中文,约300字,阅读约需1分钟。发表于: 。该论文研究了使用 GAUDI 处理器加速基于 Transformer 的模型的潜力和挑战,包括性能比较、MME 和 TPC 的优化策略、处理长序列的性能以及在 GAUDI 上评估两种大型语言模型的性能。
本文介绍了一种名为Mega的单头门控注意力机制,具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。该文进一步提出了Mega的变体,通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中,证明了Mega优于其他序列模型,包括Transformer的变体和最近的状态空间模型。