利用统计和近似理论理解变压器神经网络在内在低维数据上的扩展规律

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

增加 Transformer 模型的规模并不总能提高性能,模型对训练样本的记忆可以改善其泛化能力。我们提出了一个理论框架,揭示了 Transformer 的记忆过程与性能之间的动态关系,并通过 Hopfield 网络模拟其行为,设计了能量函数以解释注意力机制。实验结果验证了我们的理论。

🎯

关键要点

  • 增加 Transformer 模型的大小并不总是导致性能提升。

  • 经验缩放定律无法解释模型性能与规模之间的关系。

  • 模型记忆训练样本可以改善其泛化能力。

  • 提出了一个理论框架,揭示 Transformer 的记忆过程与性能之间的动态关系。

  • 使用 Hopfield 网络模拟 Transformer 的行为,进行近似最近邻搜索。

  • 设计了一个能量函数,解释注意力机制。

  • 构建了一个全局能量函数,捕捉 Transformer 的层次结构。

  • 证明了在特定条件下,最小可达的交叉熵损失下界约为1。

  • 通过对不同数据规模运行 GPT-2 实验证实了理论结果。

➡️

继续阅读