理解语言模型中输入令牌字符的作用:信息损失如何影响性能?
原文中文,约300字,阅读约需1分钟。发表于: 。通过预训练语言模型使用个别单词标记的少数字符子集,我们发现即使在极端情况下,即每个标记仅使用一个字符进行预训练,与全标记模型相比,在标准 NLU 基准测试和探测任务中,性能保持较高水平,例如,仅使用标记的单个首字符进行预训练的模型,在 SuperGLUE 和 GLUE 任务中性能保持大约 90% 和 77%。
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。同时,即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。