小红花·文摘

使用大语言模型嵌入在Scikit-learn中进行文档聚类

MachineLearningMastery.com ·

重新审视k-means：三种提升其性能的方法

MachineLearningMastery.com ·

Python中的聚类 – 机器学习工程手册

freeCodeCamp.org ·

[Python-CV2] 图像分割：Canny边缘检测、Watershed算法和K-Means方法

DEV Community ·

聚类是一种无监督学习方法，旨在将相似特征的数据点分组为“簇”。其效果依赖于数据点之间的距离度量，广泛应用于用户偏好分析和市场趋势识别。常见的聚类算法包括层次聚类和K-Means等，每种方法都有其独特的优势和适用场景。理解聚类有助于提升数据分析能力。

从零开始学机器学习——了解聚类 - 努力的小雨

努力的小雨 ·

本研究解决了时间序列聚类领域中因k-means配置差异造成的比较困难问题。我们提出了一种标准的Lloyd模型，采用端到端方法全面整合了专用距离函数，以此建立统一框架对七种流行的Lloyd-based TSCL算法进行比较。该研究的最大发现是，通过此框架，聚类性能的差异可以更清晰地归因于距离函数本身，而不是k-means配置的变化。

基于k-means的时间序列聚类研究

BriefGPT - AI 论文速递 ·

本文介绍了一种基于isotropic PCA的仿射不变聚类算法，适用于高斯混合模型，特别在分类中表现优异。研究探讨了最小化问题的压缩表示法、近似k-means算法、交互式聚类设计及公平聚类方法，提出了多种新算法和理论分析，以提高聚类效率和准确性。

可证明的不平衡点聚类

BriefGPT - AI 论文速递 ·

本研究针对k-means++算法的性能瓶颈，提出了一种利用几何信息的加速方法，实现了更高效的聚类分析。采用三角不等式和额外的范数过滤器，结合两步采样程序，使得在聚类数量增加时，算法的速度显著提高，特别适用于低维数据和高维数据的不同场景。本研究的结果有助于提升聚类算法在大规模数据集中的应用效率。

通过使用几何信息加速k-means++算法

BriefGPT - AI 论文速递 ·

本文研究了多种聚类算法，包括层次聚类、EM算法、k-means及其变种，提出了新算法Grinch和sDBSCAN，强调了它们在高维和复杂数据中的应用，展示了在准确性和效率上的优势。

递归高曼斯-威廉姆森最大割算法的数据聚类与可视化

BriefGPT - AI 论文速递 ·

FT K-Means 是一种高性能的 GPU 加速 K-Means 算法实现，具备在线容错能力，并且在计算代价方面有效解决了距离计算的低效问题。

高性能 GPU 上容错的 FT K-Means

BriefGPT - AI 论文速递 ·

本文介绍了一种基于序列到序列神经网络的主题建模方法，结合BERT模型、UMAP降维和K-Means聚类，从未分类文本中提取主题。研究表明，该方法在多个数据集上表现优异，并开发了交互式主题建模系统，具有显著应用价值。

主题建模的迭代方法

BriefGPT - AI 论文速递 ·

本研究利用各种机器学习技术（包括非负矩阵分解、截断奇异值分解和 K-Means 聚类）开发了一个鲁棒的电影推荐系统，旨在提供个性化的电影推荐，研究包括数据预处理、模型训练和评估，结果表明该系统在推荐准确性和相关性上取得了很高的成果，对推荐系统领域做出了重要贡献。

使用先进机器学习方法改进电影推荐：一项 NMF，SVD 和 K-Means 聚类的研究

BriefGPT - AI 论文速递 ·

本研究提出了一种利用自然语言处理技术对未知类别科学文献进行文本分类的新方法。通过预训练的SciBERT模型，从ArXiv数据集中提取有意义的表示，并使用K-Means算法进行分类。结果表明，该方法在捕捉主题信息方面优于传统标签系统，为科学文献的导航和推荐提供了更好的潜力。

人工直觉：科学摘要的高效分类

BriefGPT - AI 论文速递 ·

本文提出了一种可扩展的算法，解决个体公平聚类问题，设计了快速局部搜索算法，运行时间约为 $O(nk^2)$，并获得有效的近似解。研究了公平性与聚类目标之间的权衡，优化了公平聚类的解决方案，并通过实验证明了其优越性。

通过指数倾斜实现高效个体公平的 k-means

BriefGPT - AI 论文速递 ·

模块化：在Mojo🔥中快速⚡实现k-means聚类：Python到Mojo🔥加速k-means聚类的移植指南

Modular Blog ·

本文分析了大数据背景下 K-means 算法的优化技术，包括并行化、逼近和采样方法。研究评估了这些技术在速度、聚类质量和可扩展性方面的表现，并提供了优化 K-means 的实用指南。

K-Means 算法并行化及应用于大数据聚类

BriefGPT - AI 论文速递 ·

本文介绍了Cohort analysis、RFM用户分层模型和Kmeans用户聚类模型的实施过程，包括数据处理和分析，得到了群组分析矩阵、留存率矩阵、金额群组分析矩阵和RFM模型的结果。同时，还介绍了计算用户回访速度的方法和K-means聚类模型的分群和可视化展示。

用户群组分析Cohort analysis、RFM用户分层模型、Kmeans用户聚类模型

六虎 ·

本文研究了k-means聚类问题，将其表示为结构化的凸分配问题，利用低维结构解决大数据集的问题。该方法结合了全局优化理论的方法来加速处理程序，并提供了性能的数值结果。

一种解决低维 k-means 聚类问题的割平面算法

BriefGPT - AI 论文速递 ·

本文研究了CART方法构建的回归树的统计特性，发现训练误差由每个节点中的最优决策树与响应数据的Pearson相关性控制，并通过构建先验分布和解决非线性优化问题来限制其范围。使用cost-complexity pruning的CART方法可以实现最佳复杂度/拟合度权衡，同时，数据相关量可以适回归模型的维度和潜在结构，控制预测误差的收敛速度。

基于核 KMeans 聚类的端到端无监督决策树分割

BriefGPT - AI 论文速递 ·

保罗·拉姆齐：使用K-Means进行PostGIS聚类

Planet PostgreSQL ·