小红花·文摘

KVectors向量数据库现已支持IVF_RABITQ索引。测试显示，构建999999个向量的索引耗时7分25秒，尽管检索性能有所下降，但仍适合大规模数据集。该数据库支持多种主流向量索引，软著申请正在审核中。

KVectors向量数据库完成IVF_RABITQ索引的支持啦～

王福强 ·

基于自适应空间标记化的可变形物体交互学习

Apple Machine Learning Research ·

8种扩展数据科学工作负载的方法

KDnuggets ·

PilotANN：基于图形的 ANNS 的 CPU-GPU 混合系统

实时互动网 ·

本文介绍了一种新颖的机器遗忘方法LoTUS，旨在消除训练样本对预训练模型的影响，避免重新训练。LoTUS通过平滑模型的预测概率，减轻数据记忆导致的过度自信。实验表明，LoTUS在效率和效果上优于现有方法，尤其在大规模数据集上表现出良好潜力。

LoTUS: Large-Scale Machine Unlearning with Uncertainty Characteristics

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法：粒状球支持向量回归（GBSVR），旨在解决支持向量回归（SVR）在处理大规模数据集时的高计算成本和对异常值敏感的问题。GBSVR通过将数据点聚集为少量球体来简化计算，并在多个基准数据集上表现优于现有方法。

Granular Ball Support Vector Regression

BriefGPT - AI 论文速递 ·

DeepSeek 开源周发布的 3FS 是为 AI 高性能计算设计的分布式并行文件系统，优化大规模数据集处理，支持高 IOPS 和吞吐量，提升推理任务性能。

DeepSeek AI开源周5/5：开源高性能分布式并行文件系统3FS优化大规模数据集处理

蓝点网 ·

本文提出了一种改进的耦合Adam优化器，以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明，耦合Adam显著提高了嵌入质量，并优化了大规模数据集的任务性能。

Improving Embedding Representations through Coupled Adam

BriefGPT - AI 论文速递 ·

该研究提出Kozax框架，旨在解决遗传编程中适应性评估的高计算需求问题，支持大规模数据集和自定义运算符，展示了在科学计算中的优化潜力。

Kozax: Flexible and Scalable Genetic Programming in JAX

BriefGPT - AI 论文速递 ·

HNSW算法在小型数据集上表现良好，但在大规模向量相似性搜索中存在内存依赖和性能下降的问题。相比之下，IVF算法通过减少距离计算和优化量化技术，提供了更高效的解决方案，特别适合大规模数据集，因其简洁性和可扩展性而更具实用性。

为什么 HNSW 不是最终的答案

高策 ·

本研究提出了一种基于因果图模型的视觉-语言解码器，旨在提升对人类语言组合特性的理解。实验结果显示，该方法在多个基准测试中显著优于现有技术，并在大规模数据集上表现更佳。

Causal Graphical Models for Vision-Language Compositional Understanding

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过谱数据压缩加速UMAP，解决了其在大规模数据集上的效率问题。该方法在减少数据集大小的同时保持流形结构，实验结果表明嵌入质量未受影响。

通过谱粗化加速大规模数据集的UMAP

BriefGPT - AI 论文速递 ·

本研究提出了一种基于随机抽样的简单算法，针对逻辑回归的二分类任务，确保高质量的预测概率近似。通过杠杆得分抽样，样本规模可显著小于总数据量，仍能实现准确近似，为大规模数据集提供高效解决方案。

一刀切：同时高效地近似所有概率值

BriefGPT - AI 论文速递 ·

本文研究了数据摘要中的公平聚类问题，特别是公平 k-供应商问题。提出了两种 3-近似算法，能够在大规模数据集上有效选择中心点，最小化目标函数，并在公平约束下具有实用性。

公正聚类用于数据摘要：改进的近似算法及复杂性洞察

BriefGPT - AI 论文速递 ·

本文介绍了核方法在机器学习中的应用，包括解决大规模数据集问题的方法和近似误差的使用。同时指出了高斯核中的一种变体具有更高的方差和更糟糕的界限。

利用稀疏傅里叶域学习扩展连续核

BriefGPT - AI 论文速递 ·

该研究提出了一种解决主动学习算法在大规模数据集上可扩展性问题的近似算法。通过在GPU上的并行实现，该方法显著降低了存储和计算复杂度，并在多个数据集上展现了与现有最先进算法相当的准确性和更好的扩展性。

一种可扩展的主动学习算法

BriefGPT - AI 论文速递 ·

研究人员构建了一个由1500万个推文组成的大规模情绪原因数据集，包含超过70万个推文和对应的情绪-原因对。数据集涵盖了48个情绪类别，提供了抽象的情绪原因，有助于推进情绪-原因知识图谱的推理。

关于Mpox的Instagram叙事：一套用于情感、仇恨言论和焦虑分析的标记多语言数据集

BriefGPT - AI 论文速递 ·

本文提出了一种基于自监督对比学习的无监督人员再识别方法，结合了生成对抗网络和对比学习模块。实验证明该方法在多个大规模数据集上取得了比先前研究更好的效果。

短期与长期人脸重识别的解耦表示

BriefGPT - AI 论文速递 ·

本研究提出了动态门约束模块（DGC）和表达引导回归策略（EGR），以提升基于图的指称表达理解方法在处理复杂模型和大规模数据集时的性能。该方法在多个数据集上表现出色，超越了现有的变压器基础方法。

通过表达引导动态门控和回归使基于图的指称表达理解再创辉煌

BriefGPT - AI 论文速递 ·

本文介绍了DolphinDB在处理大规模数据集时的高效查询和计算能力，通过使用美国股票交易所4年的一级行情数据作为示例，演示了DolphinDB从2700亿条记录中提取一秒钟的股票数据只需7.9毫秒。整个市场一天的数据约为10GB。DolphinDB在查询少量数据和聚合大量数据时表现良好。

加速数据分析：拥抱高效查询与聚合计算

DEV Community ·