可证明学习多头注意力层
原文中文,约200字,阅读约需1分钟。发表于: 。从随机示例中学习多头注意力层的算法,给出了该问题的首个非平凡上下界。
本研究提出了一种高效的基于矩阵结构的层次注意力方法,证明其在自然语言和视觉任务中捕捉层次结构的归纳偏差有效。该方法在Long Range Arena基准测试中平均提高了6个百分点,并在One-Billion Word数据集上取得了新的SOTA测试困惑度。
从随机示例中学习多头注意力层的算法,给出了该问题的首个非平凡上下界。
本研究提出了一种高效的基于矩阵结构的层次注意力方法,证明其在自然语言和视觉任务中捕捉层次结构的归纳偏差有效。该方法在Long Range Arena基准测试中平均提高了6个百分点,并在One-Billion Word数据集上取得了新的SOTA测试困惑度。