Transformer 技巧:去除跳过机制的权重

原文约300字,阅读约需1分钟。发表于:

使用等效的版本适用于多查询关注和分组查询关注的无跳过变压器,从而降低其计算和内存复杂性。

生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。我们使用预训练的权重矩阵构建变压器的查询、关键和值矩阵,并展示了如何使用 Hadamard 乘积对自注意矩阵的行逐行应用 softmax 函数来准备区块编码。我们还结合了量子子程序来构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。

相关推荐 去reddit讨论