土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】08 嵌入：从 one-hot 到分布式表示

💡 原文中文，约28600字，阅读约需68分钟。

📝

内容提要

本文探讨了词嵌入的发展及其在自然语言处理中的重要性。词嵌入将离散词转换为连续向量，解决了传统one-hot编码的维度灾难和稀疏性问题。通过分析Firth的分布假设、word2vec和GloVe等方法，强调了词嵌入在捕捉语义相似性和类比关系中的作用。现代NLP模型如BERT和ELMo推动了上下文化词嵌入的发展，使同一词在不同上下文中具有不同表示。

🎯

关键要点

词嵌入将离散词转换为连续向量，解决了传统one-hot编码的维度灾难和稀疏性问题。
Firth的分布假设是词嵌入的基础，强调词的意义由其共现词决定。
word2vec和GloVe等方法通过不同的方式实现了词的分布式表示，捕捉了语义相似性和类比关系。
现代NLP模型如BERT和ELMo推动了上下文化词嵌入的发展，使同一词在不同上下文中具有不同表示。
embedding不仅是一个工程技巧，而是从语言学假设、统计学方法到神经网络训练的演化过程。

🔎

延伸解读

词嵌入的历史演变

词嵌入技术经历了从Firth的分布假设到现代神经网络模型的演变。理解这一历史脉络有助于把握当前NLP模型的设计理念和技术选择。尤其是word2vec和GloVe的提出，标志着从传统统计方法向深度学习的转变，推动了语义表示的进步。

上下文化词嵌入的优势

现代NLP模型如BERT和ELMo通过上下文化词嵌入解决了一词多义的问题，使得同一词在不同上下文中有不同的表示。这种灵活性在处理复杂语言任务时显得尤为重要，尤其是在需要理解语境的情况下。

embedding的工程挑战

在实际应用中，embedding的设计和训练面临诸多挑战，如维度选择、稀疏性问题和计算效率。尤其是在大规模数据集上，如何高效地训练和更新embedding矩阵是工程师需要关注的重点。

偏见与公平性问题

词嵌入模型可能会继承训练数据中的偏见，这在实际应用中可能导致不公平的结果。工程师在设计和使用这些模型时，需意识到数据的偏见可能会在决策中被放大，从而影响系统的公平性。

❓

延伸问答

什么是词嵌入，它解决了哪些问题？

词嵌入将离散词转换为连续向量，解决了传统one-hot编码的维度灾难、稀疏性问题以及词之间距离相同的问题。

Firth的分布假设对词嵌入有什么影响？

Firth的分布假设强调词的意义由其共现词决定，为词嵌入提供了理论基础，使得词的语义可以通过统计学习来建模。

word2vec和GloVe有什么区别？

word2vec是基于局部上下文的模型，通过预测上下文词来训练词向量，而GloVe则是通过全局共现矩阵来拟合词的共现统计。

上下文化词嵌入的意义是什么？

上下文化词嵌入使得同一词在不同上下文中具有不同的表示，解决了一词多义的问题，提高了语义理解的准确性。

embedding在现代NLP模型中的作用是什么？

embedding是现代NLP模型的第一步，通过将词转换为向量，帮助模型理解和处理自然语言。

如何处理词表外（OOV）问题？

可以通过子词（subword）切分技术，如BPE，将词拆分为更小的单位，从而处理未见过的词。

🏷️