线性复杂度语言模型的尺度定律
原文中文,约300字,阅读约需1分钟。发表于: 。本研究通过研究线性复杂度语言模型的扩展性建立了基础,并对三种高效的线性架构进行了扩展行为的分析。结果显示,现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。
本论文研究了循环神经网络语言模型(RNNLMs)的规模特性,讨论了在GPU上训练大型RNN的方法,并探讨了模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果显示,RNNLMs在标准测试中的困惑度较低,相比于N元模型。此外,研究者训练了目前已知的最大RNN,在ASR任务中表现出18%的相对词误差率提升,并在最近发布的十亿字语言建模基准测试中表现出新的最低困惑度、机器翻译的1 BLEU点表现提升以及词预测方面的17%相对命中率提高。