低秩近似、适应及其他故事

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了通过对两个m维变量的光滑函数进行采样生成的矩阵的低秩逼近,并提出了三个更窄的函数类别以逐个元素误差逼近。还将论点扩展到了由m维变量的多线性积生成的张量的低秩张量列逼近。讨论了结果在Transformer神经网络的注意力低秩逼近中的应用。

🎯

关键要点

  • 本文研究了通过对两个m维变量的光滑函数进行采样生成的矩阵的低秩逼近。

  • 否定了先前文献中对特定类别解析函数的论点,认为这些矩阵可以独立于m进行准确的逐个元素的秩逼近。

  • 理论上解释了支持该论点的数值结果,并描述了三个更窄的函数类别。

  • 在与维度m无关的情况下,n×n由函数生成的矩阵可以以O(log(n)ε^(-2)polylog(ε^(-1)))的逐个元素误差逼近。

  • 将论点扩展到由m维变量的多线性积生成的张量的低秩张量列逼近。

  • 讨论了结果在Transformer神经网络的注意力低秩逼近中的应用。

➡️

继续阅读