线性复杂度语言模型的尺度定律
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本论文研究了循环神经网络语言模型(RNNLMs)的规模特性,讨论了在GPU上训练大型RNN的方法,并探讨了模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果显示,RNNLMs在标准测试中的困惑度较低,相比于N元模型。此外,研究者训练了目前已知的最大RNN,在ASR任务中表现出18%的相对词误差率提升,并在最近发布的十亿字语言建模基准测试中表现出新的最低困惑度、机器翻译的1 BLEU点表现提升以及词预测方面的17%相对命中率提高。
🎯
关键要点
- 研究了循环神经网络语言模型(RNNLMs)的规模特性。
- 讨论了在GPU上训练大型RNN的方法。
- 探讨了模型大小、训练集大小、计算成本和内存的扩展性问题。
- RNNLMs在标准测试中表现出较低的困惑度,相比于N元模型。
- 训练了目前已知的最大RNN,在ASR任务中提升了18%的相对词误差率。
- 在十亿字语言建模基准测试中,RNNLMs表现出新的最低困惑度。
- 机器翻译的表现提升了1 BLEU点。
- 词预测方面的相对命中率提高了17%。
➡️