【NLP 系列】Bert 词向量的空间分布
💡
原文中文,约5400字,阅读约需13分钟。
📝
内容提要
Bert词向量存在各向异性,高频词分布狭小,低频词训练不足,导致计算相似度存在问题,可以采用cos正则、高斯分布等方法纠正。
🎯
关键要点
- Bert预训练模型在语义相似度任务上表现不如Word2Vec和Glove。
- Bert词向量存在各向异性,高频词分布狭小,低频词训练不足,导致相似度计算问题。
- Bert词向量的空间分布呈现锥形,任意两个词向量正相关,降低模型性能。
- 表征退化问题的直观解释是词嵌入被推向隐藏状态的方向,导致大多数单词聚集在一起。
- 理论解释表明,未出现词的嵌入与隐藏状态的结构有关,低频词在优化过程中彼此接近。
- 论文研究表明高频词靠近原点,低频词远离原点,且低频词与其近邻距离更远。
- 针对Bert词向量问题,可以采用cos正则和高斯分布等方法进行纠正。
➡️