KVectors向量数据库现已支持IVF_RABITQ索引。测试显示,构建999999个向量的索引耗时7分25秒,尽管检索性能有所下降,但仍适合大规模数据集。该数据库支持多种主流向量索引,软著申请正在审核中。
本文提出了一种自适应空间标记化(AST)方法,旨在高效模拟可变形物体之间的交互。该方法通过将模拟空间划分为网格单元,并将非结构化网格映射到结构化网格上,从而提高计算效率。实验结果表明,该方法在处理超过10万个节点的大规模网格时,显著优于现有技术,并提供了一个新的大规模数据集以支持未来研究。
本文介绍了如何通过BigQuery简化数据科学工作,提供八种实用方法,如在电子表格中进行机器学习、使用BigQuery Sandbox进行无成本实验、在Colab笔记本中利用AI助手,以及处理大规模数据集等。这些工具旨在帮助数据科学家专注于分析,而非工具本身。
近似最近邻搜索(ANNS)是一种用于高维向量检索的技术,广泛应用于搜索引擎和推荐系统。香港中文大学等提出的PilotANN通过混合CPU-GPU系统优化了向量搜索,显著提升了吞吐量和成本效益,适合大规模数据集。
本文介绍了一种新颖的机器遗忘方法LoTUS,旨在消除训练样本对预训练模型的影响,避免重新训练。LoTUS通过平滑模型的预测概率,减轻数据记忆导致的过度自信。实验表明,LoTUS在效率和效果上优于现有方法,尤其在大规模数据集上表现出良好潜力。
本研究提出了一种新方法:粒状球支持向量回归(GBSVR),旨在解决支持向量回归(SVR)在处理大规模数据集时的高计算成本和对异常值敏感的问题。GBSVR通过将数据点聚集为少量球体来简化计算,并在多个基准数据集上表现优于现有方法。
DeepSeek 开源周发布的 3FS 是为 AI 高性能计算设计的分布式并行文件系统,优化大规模数据集处理,支持高 IOPS 和吞吐量,提升推理任务性能。
本文提出了一种改进的耦合Adam优化器,以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明,耦合Adam显著提高了嵌入质量,并优化了大规模数据集的任务性能。
该研究提出Kozax框架,旨在解决遗传编程中适应性评估的高计算需求问题,支持大规模数据集和自定义运算符,展示了在科学计算中的优化潜力。
HNSW算法在小型数据集上表现良好,但在大规模向量相似性搜索中存在内存依赖和性能下降的问题。相比之下,IVF算法通过减少距离计算和优化量化技术,提供了更高效的解决方案,特别适合大规模数据集,因其简洁性和可扩展性而更具实用性。
本研究提出了一种基于因果图模型的视觉-语言解码器,旨在提升对人类语言组合特性的理解。实验结果显示,该方法在多个基准测试中显著优于现有技术,并在大规模数据集上表现更佳。
本研究提出了一种新方法,通过谱数据压缩加速UMAP,解决了其在大规模数据集上的效率问题。该方法在减少数据集大小的同时保持流形结构,实验结果表明嵌入质量未受影响。
本研究提出了一种基于随机抽样的简单算法,针对逻辑回归的二分类任务,确保高质量的预测概率近似。通过杠杆得分抽样,样本规模可显著小于总数据量,仍能实现准确近似,为大规模数据集提供高效解决方案。
本文研究了数据摘要中的公平聚类问题,特别是公平 k-供应商问题。提出了两种 3-近似算法,能够在大规模数据集上有效选择中心点,最小化目标函数,并在公平约束下具有实用性。
本文介绍了核方法在机器学习中的应用,包括解决大规模数据集问题的方法和近似误差的使用。同时指出了高斯核中的一种变体具有更高的方差和更糟糕的界限。
该研究提出了一种解决主动学习算法在大规模数据集上可扩展性问题的近似算法。通过在GPU上的并行实现,该方法显著降低了存储和计算复杂度,并在多个数据集上展现了与现有最先进算法相当的准确性和更好的扩展性。
研究人员构建了一个由1500万个推文组成的大规模情绪原因数据集,包含超过70万个推文和对应的情绪-原因对。数据集涵盖了48个情绪类别,提供了抽象的情绪原因,有助于推进情绪-原因知识图谱的推理。
本文提出了一种基于自监督对比学习的无监督人员再识别方法,结合了生成对抗网络和对比学习模块。实验证明该方法在多个大规模数据集上取得了比先前研究更好的效果。
本研究提出了动态门约束模块(DGC)和表达引导回归策略(EGR),以提升基于图的指称表达理解方法在处理复杂模型和大规模数据集时的性能。该方法在多个数据集上表现出色,超越了现有的变压器基础方法。
本文介绍了DolphinDB在处理大规模数据集时的高效查询和计算能力,通过使用美国股票交易所4年的一级行情数据作为示例,演示了DolphinDB从2700亿条记录中提取一秒钟的股票数据只需7.9毫秒。整个市场一天的数据约为10GB。DolphinDB在查询少量数据和聚合大量数据时表现良好。
完成下面两步后,将自动完成登录并继续当前操作。