基于大型语言模型的上下文感知聚类

使用开源的大型语言模型（LLMs）进行效率高且有效的监督聚类，通过捕捉上下文来聚类实体子集。通过引入一种新的改进的三元损失函数和基于文本增强技术的自监督聚类任务，我们的方法在各种电子商务查询和产品聚类数据集上显著优于现有的无监督和有监督的基准。

该研究使用大型语言模型（LLMs）的文本嵌入和聚类算法，评估了文本聚类方法对数据集的影响。结果显示，LLMs嵌入在捕捉结构化语言的细微差别方面表现出色，BERT在性能方面领先于其他轻量级选择。增加嵌入维度和使用摘要技术并不能统一提高聚类效率。该研究扩展了传统文本聚类框架，为改进方法学和文本分析开辟了新的研究方向。

BERT LLMs 大型语言模型文本嵌入聚类算法