基于BEST-RQ的线性复杂度注意力替代方法分析

本研究针对自监督学习中的多头自注意力计算和内存消耗过大的问题，探讨了几种具有线性复杂度的新替代方案，包括HyperMixing、Fastformer、SummaryMixing和Mamba。研究结果表明，这些线性替代方案在保持竞争性性能的同时，平均减少了20%至60%的内存消耗，并在处理输入序列时速度提升了7%至65%。

本研究提出了几种具有线性复杂度的新替代方案，用于解决自监督学习中的多头自注意力计算和内存消耗过大的问题。实验结果显示，这些替代方案在保持竞争性性能的同时，平均减少了20%至60%的内存消耗，并在处理输入序列时速度提升了7%至65%。

内存消耗多头自注意力线性复杂度自监督学习速度提升