Transformer 技巧:去除跳过机制的权重

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。我们使用预训练的权重矩阵构建变压器的查询、关键和值矩阵,并展示了如何使用 Hadamard 乘积对自注意矩阵的行逐行应用 softmax 函数来准备区块编码。我们还结合了量子子程序来构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。

🎯

关键要点

  • 生成式机器学习方法如大型语言模型正在革新文本和图像的创作。
  • 本研究通过容错性量子计算的视角来调查变压器架构。
  • 使用预训练的权重矩阵构建变压器的查询、关键和值矩阵。
  • 展示了如何使用 Hadamard 乘积对自注意矩阵的行逐行应用 softmax 函数来准备区块编码。
  • 结合量子子程序构建变压器中的重要构件,包括残余连接、层归一化和前馈神经网络。
  • 子程序准备了变压器输出的振幅编码,可以进行测量以获得预测结果。
  • 讨论了获取量子优势的潜力和挑战。
➡️

继续阅读