通过隐式结构建立提高认知启发型数据有效语言模型的性能
原文约300字/词,阅读约需1分钟。发表于: 。在这篇文章中,我们描述了我们在 2023 年 BabyLM 挑战赛上对数据高效的语言模型(LM)预训练的提交。我们使用结构型语言模型架构以及其变种,将有关层次化句子结构的无监督预测纳入模型架构中,并在 39 个 BabyLM 挑战赛提供的任务上进行了评估,结果显示在某些特定任务上,将层次化偏差整合到架构中的模型表现出有希望的改进,尽管它们未能在所有任务上始终超过挑战赛组织者提供的 RoBERTa 基准模型。
本文介绍了2023年BabyLM挑战赛上的语言模型预训练提交。使用结构型语言模型架构及其变种,在39个任务上进行了评估,结果表明层次化偏差整合到架构中的模型在某些任务上表现出有希望的改进。