低秩近似、适应及其他故事
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了通过对两个m维变量的光滑函数进行采样生成的矩阵的低秩逼近,并提出了三个更窄的函数类别以逐个元素误差逼近。还将论点扩展到了由m维变量的多线性积生成的张量的低秩张量列逼近。讨论了结果在Transformer神经网络的注意力低秩逼近中的应用。
🎯
关键要点
-
本文研究了通过对两个m维变量的光滑函数进行采样生成的矩阵的低秩逼近。
-
否定了先前文献中对特定类别解析函数的论点,认为这些矩阵可以独立于m进行准确的逐个元素的秩逼近。
-
理论上解释了支持该论点的数值结果,并描述了三个更窄的函数类别。
-
在与维度m无关的情况下,n×n由函数生成的矩阵可以以O(log(n)ε^(-2)polylog(ε^(-1)))的逐个元素误差逼近。
-
将论点扩展到由m维变量的多线性积生成的张量的低秩张量列逼近。
-
讨论了结果在Transformer神经网络的注意力低秩逼近中的应用。
🏷️
标签
➡️