小红花·文摘

本研究探讨了下一标记预测对语言模式与模型表示几何属性映射的影响，发现NTP促进了稀疏加低秩结构的学习，可能导致表示在适当子空间中聚集。其他研究探讨了语境化表示的拓扑感知、大型语言模型中嵌入的信息编码、下一标记预测的隐性偏见等。还提出了构建无需固定词嵌入的语言模型、重新考虑预训练语言模型的词元嵌入及其定义等方法。