如何理解机器学习中的嵌入 (Embedding) - 蝈蝈俊
💡
原文中文,约2000字,阅读约需5分钟。
📝
内容提要
词嵌入是一种将自然语言转换为数字的思想,可以替代独热编码和协同矩阵,降低特征维度和计算复杂度,在训练过程中不断学习,获得各种信息,语义相似的词在向量空间上也会比较接近,可以表达词语之间的关系。
🎯
关键要点
-
嵌入是用向量表示物体的概念,涉及机器学习和深度学习的基本对象。
-
嵌入的翻译为向量映射,用向量表示物体。
-
文本是非结构化的信息,需要转化为可计算的数字。
-
索引化、独热编码和向量表示是文本数字化的三种方案,各有优缺点。
-
词嵌入的优势在于用低维向量表达文本,能体现语义相似词的距离。
-
Embedding的本质是压缩,用低维特征描述高维特征。
-
Embedding过程中可能会丢失冗余和部分有用信息。
-
语义相似的词在向量空间中位置接近,保持原样本的语义关系。
-
通过训练可以找到词汇之间的语义关系。
-
Embedding的意义在于将自然语言转化为数字,降低特征维度和计算复杂度。
➡️