Shadow Walker 松烟阁 ·

小本本系列：大模型中的文本向量text embeddings

💡 原文中文，约10000字，阅读约需24分钟。

📝

内容提要

本文探讨了文本向量化方法，包括词袋模型、TF-IDF、word2vec和transformer模型，这些技术提升了计算机对自然语言的理解，特别是通过嵌入表示捕捉语义。同时，文章讨论了余弦相似度和欧几里得距离等不同距离度量在向量比较中的应用。

🎯

❓

文本向量化方法是将文本转换为计算机可处理的向量表示的技术，包括词袋模型、TF-IDF、word2vec和transformer模型。

词袋模型的主要缺点是它不考虑单词的语义关系，因此无法捕捉句子之间的语义相似性。

TF-IDF模型通过结合词频和逆文档频率来提高词袋模型的效果，但仍然无法捕捉语义信息。

word2vec模型通过上下文预测单词，生成密集向量表示，捕捉词之间的语义关系。

transformer模型通过自注意力机制生成信息丰富的密集向量，并允许针对不同用例进行微调，而无需重新训练核心模型。

文本向量之间的相似度可以通过不同的距离度量计算，如余弦相似度、欧几里得距离和曼哈顿距离。

🏷️

华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...
技嘉科技推出INFINITY系列限定产品
技嘉科技在COMPUTEX 2026展前发布了INFINITY系列限定产品，以庆祝成立40周年。新产品包括支持DDR5 11400 MT/s的X870 A...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
育碧曾经最重要的游戏系列，正式回归
又搬一个救兵。育碧在今天正式公布了又一款新游戏《雷曼传奇再叙》，预定于10月1日发售。该作品名义上是2013年发售的游戏《雷曼传奇》的重制版，但不仅使用最...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...