小红花·文摘

本文介绍了Transformer模型的基本原理和Word Embeddings，重点讲解了神经网络训练流程、Embedding的概念及Word2Vec的两种优化方法：负采样和层次化Softmax。通过实例说明了如何将文本转换为向量，以及如何利用这些向量表达词之间的关系，并提供了使用PyTorch实现Word2Vec的代码示例。

大预言模型的基石：Transformer 入坑笔记（二） - 基本原理和 Word Embeddings

I'm OWenT ·

本文探讨了词嵌入的发展及其在自然语言处理中的重要性。词嵌入将离散词转换为连续向量，解决了传统one-hot编码的维度灾难和稀疏性问题。通过分析Firth的分布假设、word2vec和GloVe等方法，强调了词嵌入在捕捉语义相似性和类比关系中的作用。现代NLP模型如BERT和ELMo推动了上下文化词嵌入的发展，使同一词在不同上下文中具有不同表示。

【Transformer 与注意力机制】08 嵌入：从 one-hot 到分布式表示

土法炼钢兴趣小组的博客 ·

word2vec究竟学习了什么？

The Berkeley Artificial Intelligence Research Blog ·

在Databricks实验中使用SparkML和MLFlow进行嵌入的特征工程

DEV Community ·

从词语到向量：词嵌入的温和入门

DEV Community ·

本文介绍了N-gram模型和Word2Vec的基本概念。N-gram模型用于计算句子概率，捕捉短语结构和上下文关系，但存在局限性。Word2Vec通过降低维度和赋予词语语义信息，解决了传统one-hot编码的问题，提升了词与词之间的关联性，并展示了其训练过程及在文本分类中的应用。

Word2Vec+LSTM+Attention恶意评论识别

FreeBuf网络安全行业门户 ·

本文介绍了N-gram模型和Word2Vec的基本概念。N-gram模型用于计算句子概率，捕捉短语结构和上下文关系，但存在局限性。Word2Vec通过降维和赋予词语语义信息，解决了传统one-hot编码的问题，增强了词与词之间的关联性。结合LSTM和自注意力机制，进一步提升了模型性能。

Word2Vec+LSTM+Attention恶意评论识别

FreeBuf网络安全行业门户 ·

本研究评估了不同文本领域中文档相似性评分的性能，比较了TF-IDF、Word2Vec和BERT嵌入的优缺点。结果显示，TF-IDF依赖于词汇重叠，Word2Vec在跨领域比较中表现优越，而BERT在复杂领域的表现较差，可能是由于缺乏微调。

莎士比亚十四行诗与泰勒·斯威夫特歌词的文档级嵌入方法的比较分析

BriefGPT - AI 论文速递 ·

本文提出了一种新型语义搜索算法，结合Word2Vec和Annoy索引，显著提高了在大数据集中检索信息的效率，尤其在处理高达100GB的数据集时，表现出高精度和优良性能。

小本本系列：大模型中的文本向量text embeddings

Shadow Walker 松烟阁 ·

本文探讨了多种音乐生成技术，包括基于word2vec的语义计算、UTACO歌唱合成模型的注意力机制，以及新型Transformer解码器架构。研究表明，子词分词技术和MelodyGLM框架在旋律生成中表现优异，SongComposer利用LLM技术实现高质量的歌词与旋律生成。这些方法为音乐创作提供了新的工具和思路。

探索词嵌入：在向量数据库中实现Word2Vec和GloVe的Python方法

DEV Community ·

词嵌入是词在向量空间中的密集表示，能捕捉词的意义和关系。Word2Vec有CBOW和Skip-gram两种架构。CBOW根据上下文预测词，Skip-gram根据目标词预测上下文词。词嵌入可用于自然语言处理中的预训练嵌入、输入特征和下游任务。它能捕捉语义关系、降低维度和进行迁移学习。

自然语言处理中的词嵌入

DEV Community ·

利用自然语言处理（NLP）中的 word2vec、BERT 和 RoBERTa 等嵌入技术，通过学习中间表示（LLVM）代码的语义，利用长短期记忆（LSTM）神经网络对 Juliet 数据集中近 118k 个 LLVM 函数的嵌入进行训练，进而检测编译二进制文件中的漏洞。研究结果显示，与复杂的上下文 NLP 嵌入相比，word2vec 连续词袋（CBOW）模型在检测漏洞方面取得了...

双向 Transformer vs. word2vec：发现提升编译代码中的漏洞

BriefGPT - AI 论文速递 ·

LLM + Fine-tune和LLM + 外挂知识库是目前的方案选择。文章介绍了使用Word2Vec进行知识库训练和应用的方法，包括安装Python环境和相关依赖库。Word2Vec是一种处理自然语言的模型，通过训练文本数据将单词转换为向量表示。还介绍了其他词向量模型如GloVe、FastText、ELMo和BERT。文章还提到了数据处理、模型训练和使用词向量的方法。最后介绍了向量相似度计算和知识库检索的方法，以及一些主流的向量数据库。模型部署和使用的参考链接也提供了。