线性复杂度语言模型的尺度定律

本研究通过研究线性复杂度语言模型的扩展性建立了基础，并对三种高效的线性架构进行了扩展行为的分析。结果显示，现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。

本论文研究了循环神经网络语言模型（RNNLMs）的规模特性，讨论了在GPU上训练大型RNN的方法，并探讨了模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果显示，RNNLMs在标准测试中的困惑度较低，相比于N元模型。此外，研究者训练了目前已知的最大RNN，在ASR任务中表现出18%的相对词误差率提升，并在最近发布的十亿字语言建模基准测试中表现出新的最低困惑度、机器翻译的1 BLEU点表现提升以及词预测方面的17%相对命中率提高。