小型语言模型如同小词汇:探究基于音素和字素的幼小拉马的语言能力
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对当前语言模型中使用子词级标记算法的局限性展开,提出无标记的音素和字素基语言模型的新方法。研究表明,基于字符级词汇的小型Llama架构模型在标准句法和新的词汇/语音基准测试中表现出色,且音素模型在不受字素偏见影响的情况下几乎与字素模型持平。这些发现为创造更具语言合理性的语言模型提供了有希望的方向,尤其适用于语言习得与处理的计算研究。
ToddlerBERTa是一种语言模型,通过调整五种超参数进行探索。在BLiMP和SuperGLUE等基准测试中,小模型在特定任务上表现出色,大模型在大量数据上表现良好。尽管训练数据集较小,ToddlerBERTa的性能与RoBERTa-base相当,展示了强大的语言理解能力。研究提供了关于超参数选择和数据利用的见解,推动了语言模型的发展。