【Transformer 与注意力机制】08 嵌入:从 one-hot 到分布式表示

💡 原文中文,约28600字,阅读约需68分钟。
📝

内容提要

本文探讨了词嵌入的发展及其在自然语言处理中的重要性。词嵌入将离散词转换为连续向量,解决了传统one-hot编码的维度灾难和稀疏性问题。通过分析Firth的分布假设、word2vec和GloVe等方法,强调了词嵌入在捕捉语义相似性和类比关系中的作用。现代NLP模型如BERT和ELMo推动了上下文化词嵌入的发展,使同一词在不同上下文中具有不同表示。

🎯

关键要点

  • 词嵌入将离散词转换为连续向量,解决了传统one-hot编码的维度灾难和稀疏性问题。
  • Firth的分布假设是词嵌入的基础,强调词的意义由其共现词决定。
  • word2vec和GloVe等方法通过不同的方式实现了词的分布式表示,捕捉了语义相似性和类比关系。
  • 现代NLP模型如BERT和ELMo推动了上下文化词嵌入的发展,使同一词在不同上下文中具有不同表示。
  • embedding不仅是一个工程技巧,而是从语言学假设、统计学方法到神经网络训练的演化过程。

延伸问答

什么是词嵌入,它解决了哪些问题?

词嵌入将离散词转换为连续向量,解决了传统one-hot编码的维度灾难、稀疏性问题以及词之间距离相同的问题。

Firth的分布假设对词嵌入有什么影响?

Firth的分布假设强调词的意义由其共现词决定,为词嵌入提供了理论基础,使得词的语义可以通过统计学习来建模。

word2vec和GloVe有什么区别?

word2vec是基于局部上下文的模型,通过预测上下文词来训练词向量,而GloVe则是通过全局共现矩阵来拟合词的共现统计。

上下文化词嵌入的意义是什么?

上下文化词嵌入使得同一词在不同上下文中具有不同的表示,解决了一词多义的问题,提高了语义理解的准确性。

embedding在现代NLP模型中的作用是什么?

embedding是现代NLP模型的第一步,通过将词转换为向量,帮助模型理解和处理自然语言。

如何处理词表外(OOV)问题?

可以通过子词(subword)切分技术,如BPE,将词拆分为更小的单位,从而处理未见过的词。

➡️

继续阅读