基于$\mathsf{RoPE}$的张量注意力变换器的表达能力的理论限制

📝

内容提要

本研究探讨了张量注意力和基于$\mathsf{RoPE}$的张量注意力的电路复杂性,揭示在多项式精度、常数深度层和线性或亚线性隐藏维度条件下,它们无法解决固定成员问题或$(A_{F,r})^*$闭合问题。这一发现揭示了张量注意力与经典矩阵注意力之间的差距,进而为基于理论的变换器模型设计和扩展提供了重要的指导。

🏷️

标签

➡️

继续阅读