均值上下文嵌入的范数决定其方差
原文中文,约2200字,阅读约需6分钟。发表于: 。本研究针对上下文嵌入在不同上下文中的变化,探讨了均值嵌入的范数与方差之间的关系。我们提出了一种有效的序列计算方法,并发现均值越靠近原点,方差越大,这一现象可能受层归一化机制的影响。实验结果表明,随着Transformer模型层数的增加,嵌入远离原点,类间方差减小,类内方差增大,这与先前的嵌入空间各层各向异性的研究一致。
本研究探讨了上下文嵌入的变化与均值嵌入的范数和方差之间的关系。实验结果显示,随着Transformer模型层数增加,嵌入远离原点,类间方差减小,类内方差增大。