Jacky's Blog ·

如何计算向量数据的相似度？

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

本文介绍了文本向量化的传统做法和现成的向量化大模型，以及如何计算向量数据的相似度，包括余弦相似度和欧式距离算法。同时，介绍了t-SNE算法的应用，可以将向量数据可视化，最后讲述了如何应用在相似度检测上。

🎯

关键要点

本文介绍了文本向量化的传统做法和现成的向量化大模型。
文本向量化的过程包括分词、建立词汇表、词汇表编码和标准化。
现成的向量化大模型可以通过调用API来简化向量化过程。
向量化后的数据可以用于搜索、聚类、推荐、异常检测等功能。
计算向量数据相似度的常见方法包括余弦相似度和欧式距离。
余弦相似度计算步骤包括点积、模长和相似度公式。
欧式距离计算步骤包括平方差之和和平方根。
t-SNE算法可以将向量数据可视化，帮助理解数据的相似度。
t-SNE算法的应用需要合适的参数设置和样本数据。
相似度检测可以通过向量化搜索词并进行t-SNE运算来实现。

🏷️

标签

t-SNE算法可视化向量文本向量化相似度检测相似度计算

➡️

继续阅读

迅策科技TokenOS数据Token化能力首次大规模进入私募股权投资领域
(全球TMT 2026年07月20日讯)7月19日，迅策科技发布公告，宣布其与洪泰基金的控股公司青岛鑫辰科创实 […]
Google just bet its inference future on a chip built for one model
The race to make AI inference cheaper is pushing chip design beyond general-p...
C++ Dependencies Without the Headache: vcpkg + Copilot CLI
At Pure Virtual C++ 2026, we build a C++ console app from an empty folder usi...
SpaceX in your index fund, explained
Index funds are touted as one of the safest ways to invest. Rather than picki...
Cloudflare Internal DNS is now generally available
Cloudflare Internal DNS brings authoritative and recursive DNS for private ne...
Branching databases like code: a CI/CD pattern for Lakebase, in production at Glaspoort
The problem we couldn't ignoreGlaspoort builds and operates fiber infrast...