均值上下文嵌入的范数决定其方差
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
本研究探讨了上下文嵌入的变化与均值嵌入的范数和方差之间的关系。实验结果显示,随着Transformer模型层数增加,嵌入远离原点,类间方差减小,类内方差增大。
🎯
关键要点
-
本研究探讨上下文嵌入的变化与均值嵌入的范数和方差之间的关系。
-
提出了一种有效的序列计算方法,发现均值越靠近原点,方差越大。
-
实验结果显示,随着Transformer模型层数增加,嵌入远离原点,类间方差减小,类内方差增大。
-
这一现象可能受层归一化机制的影响,与先前的嵌入空间各层各向异性的研究一致。
🏷️
标签
➡️