DEV Community ·

Model2Vec：让句子转换器在CPU上快500倍，体积缩小15倍

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

该文章介绍了一个名为Model2Vec的项目，该项目通过使用大型嵌入模型的输出嵌入，使用PCA降维和Zipf加权的方法，创建了一个非常小的静态嵌入模型。该模型在MTEB的所有任务中表现优于其他静态嵌入模型，且速度更快、体积更小。作者还提供了一个基本接口供用户使用该模型。

🎯

❓

Model2Vec是一个通过大型嵌入模型的输出创建的小型静态嵌入模型，体积仅为30MB。

Model2Vec在MTEB的所有任务中表现优于其他静态嵌入模型，速度更快且体积更小。

用户可以通过安装包并使用简单的代码调用Model2Vec接口来创建嵌入。

Model2Vec适用于文本分类、相似性搜索和聚类等用例。

Model2Vec的蒸馏过程可以在普通CPU上快速完成，无需训练数据，只需词汇表即可生成嵌入。

Model2Vec的实验和结果已在GitHub上记录，链接为https://github.com/MinishLab/model2vec。

🏷️