中文环境下使用 huggingface 模型替换 OpenAI的Embedding 接口
原文中文,约3400字,阅读约需8分钟。发表于: 。OpenAI的文本嵌入衡量文本字符串的相关性。嵌入通常用于:搜索(其中结果按与查询字符串的相关性排名)聚类(其中文本字符串按相似性分组)推荐(推荐具有相关文本字符串的项目)异常检测(识别出相关性不大的异常值)多样性测量(分析相似性分布)分类(其中文本字符串按其最相似的标签分类)嵌入是浮点数的向量(列表)。两个向量之间的距离衡量它们的相关性。小距离表示高相关性,大距离表示低相关性。但是OpenAI的...
本文介绍了OpenAI的文本嵌入及其在搜索、聚类、推荐、异常检测、多样性测量和分类等方面的应用。然而,OpenAI的文本嵌入接口对中文的支持并不好,社区经过实践,对中文支持比较好的模型是Hugging face上的ganymedenil/text2vec-large-chinese。通过在本地运行Huggingface模型,可以使用Nuget包Microsoft.SemanticKernel.Connectors.AI.HuggingFace进行文本嵌入。具体用法可以参考单元测试代码HuggingFaceEmbeddingGenerationTests。