小型语言模型能否学习、遗忘并保留噪声模式?
原文中文,约300字,阅读约需1分钟。发表于: 。该研究调查了小语言模型在学习、保留和消除通常不存在于互联网上的噪声方面的能力,并评估了四个小语言模型的表现在不同训练水平下,发现 Olmo 在任务上表现始终良好,即使它是参数最少的模型。
本文介绍了TinyStories数据集和一种新的评估语言模型的方法,该数据集使用GPT-3.5和GPT-4生成,只包含3到4岁儿童理解的单词。使用TinyStories可以训练和评估小型语言模型,并引入新的评估范式来评估语言能力和得分,有助于低资源或专业领域的语言模型的发展和研究。