小红花·文摘

本文提出了一种基于影响子集选择（ISS）的方法，通过优化数据选择和混合，显著提升大型语言模型的性能并降低训练成本。研究强调了数据多样性的重要性，并提出基于k-means聚类的优化方法，实现了7%的性能提升。

BriefGPT - AI 论文速递 ·

本文从贝叶斯非参数的角度重新审视k-means聚类算法，分析了Dirichlet过程混合物的Gibbs抽样，发现其在极限情况下接近硬聚类。研究了高维数据的聚类方法，比较了EM算法与其他方法的优劣，并提出了基于Bregman距离的聚类算法，展示了其在非高斯数据上的优势。

BriefGPT - AI 论文速递 ·

本文研究了k-means聚类问题，将其表示为结构化的凸分配问题，利用低维结构解决大数据集的问题。该方法结合了全局优化理论的方法来加速处理程序，并提供了性能的数值结果。

BriefGPT - AI 论文速递 ·