SQL:2023引入了向量数据类型,支持语义相似性匹配,允许通过向量比较数据并提供多种相似度计算方法,如余弦和欧几里得距离。查询时可使用FETCH APPROX语句选择近似结果。标准仍在开发中,未来可能增加更多功能。
文章探讨了如何利用聚类算法(如凝聚层次聚类)整理杂乱文件夹。由于大型语言模型(LLM)存在上下文限制,无法一次处理大量文件名,因此需先进行聚类,以避免生成不相关的文件夹名称。选择凝聚层次聚类的原因包括无需预定义聚类数量和支持自定义距离度量。此外,文章强调了归一化和余弦距离在高维嵌入空间中的重要性。
DSSM模型采用BOW方式表示Query和Title,通过含有多个隐层的DNN将其表达为低维语义向量。匹配层通过余弦距离计算语义相似度,并通过softmax函数转化为后验概率。在训练阶段,通过极大似然估计最小化损失函数,使用随机梯度下降使模型收敛。DSSM采用字向量作为输入,可以减少切词的依赖,提高模型泛化能力。缺点是丧失了语序信息和上下文信息,预测结果不可控。
完成下面两步后,将自动完成登录并继续当前操作。