小型语言模型如同小词汇：探究基于音素和字素的幼小拉马的语言能力

本研究针对当前语言模型中使用子词级标记算法的局限性展开，提出无标记的音素和字素基语言模型的新方法。研究表明，基于字符级词汇的小型Llama架构模型在标准句法和新的词汇/语音基准测试中表现出色，且音素模型在不受字素偏见影响的情况下几乎与字素模型持平。这些发现为创造更具语言合理性的语言模型提供了有希望的方向，尤其适用于语言习得与处理的计算研究。

ToddlerBERTa是一种语言模型，通过调整五种超参数进行探索。在BLiMP和SuperGLUE等基准测试中，小模型在特定任务上表现出色，大模型在大量数据上表现良好。尽管训练数据集较小，ToddlerBERTa的性能与RoBERTa-base相当，展示了强大的语言理解能力。研究提供了关于超参数选择和数据利用的见解，推动了语言模型的发展。

ToddlerBERTa 小型语言模型性能数据利用语言模型超参数