TinyGSM: 使用小型语言模型在 GSM8k 上达到 80% 以上
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用小规模模型并结合高质量的数据集,我们的研究探索了如何提升小型语言模型在解决小学数学问题时的数学推理能力,并通过引入 TinyGSM 数据集和验证器的方法,实现了在 GSM8K 基准测试中超过 80% 的准确率,同时在模型规模上远远超过现有模型。
本文介绍了TinyStories数据集和一种新的评估语言模型的方法,该数据集使用GPT-3.5和GPT-4生成,只包含3到4岁儿童通常理解的单词。使用TinyStories可以训练和评估小型语言模型,并引入新的评估范式来评估语言能力和多维度得分。这有助于低资源或专业领域的语言模型的发展和研究。