研究表明,语言模型在预训练中先生成短重复短语,再逐步学习生成更长文本。高频标记更早被学习,惊奇度低且不易遗忘。n-gram概率增强了这些效果。短频上下文有助于快速习得,词类影响小,但名词习得较晚且不稳定。这有助于理解语言模型的预训练动态。
完成下面两步后,将自动完成登录并继续当前操作。