下一个标记预测的隐式几何:从语言稀疏模式到模型表示
原文中文,约2300字,阅读约需6分钟。发表于: 。本研究解决了下一标记预测(NTP)如何影响语言模式与模型表示几何属性之间映射的未知问题。通过将大型语言模型的训练框架视为稀疏概率标签向量上的软标签分类,提出了一种新颖的方法来分析单词和上下文嵌入的几何特征。研究发现,NTP隐式地促进了稀疏加低秩结构的学习,可能导致相同下一标记上下文的表示在适当子空间中聚集,这一现象称为子空间崩溃。
本研究探讨了下一标记预测对语言模式与模型表示几何属性映射的影响,发现NTP促进了稀疏加低秩结构的学习,可能导致表示在适当子空间中聚集。其他研究探讨了语境化表示的拓扑感知、大型语言模型中嵌入的信息编码、下一标记预测的隐性偏见等。还提出了构建无需固定词嵌入的语言模型、重新考虑预训练语言模型的词元嵌入及其定义等方法。