小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

KVectors向量数据库现已支持IVF_RABITQ索引。测试显示,构建999999个向量的索引耗时7分25秒,尽管检索性能有所下降,但仍适合大规模数据集。该数据库支持多种主流向量索引,软著申请正在审核中。

KVectors向量数据库完成IVF_RABITQ索引的支持啦~

王福强
王福强 · 2025-11-10T16:00:00Z
基于自适应空间标记化的可变形物体交互学习

本文提出了一种自适应空间标记化(AST)方法,旨在高效模拟可变形物体之间的交互。该方法通过将模拟空间划分为网格单元,并将非结构化网格映射到结构化网格上,从而提高计算效率。实验结果表明,该方法在处理超过10万个节点的大规模网格时,显著优于现有技术,并提供了一个新的大规模数据集以支持未来研究。

基于自适应空间标记化的可变形物体交互学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-04T00:00:00Z
8种扩展数据科学工作负载的方法

本文介绍了如何通过BigQuery简化数据科学工作,提供八种实用方法,如在电子表格中进行机器学习、使用BigQuery Sandbox进行无成本实验、在Colab笔记本中利用AI助手,以及处理大规模数据集等。这些工具旨在帮助数据科学家专注于分析,而非工具本身。

8种扩展数据科学工作负载的方法

KDnuggets
KDnuggets · 2025-07-22T17:00:57Z
PilotANN:基于图形的 ANNS 的 CPU-GPU 混合系统

近似最近邻搜索(ANNS)是一种用于高维向量检索的技术,广泛应用于搜索引擎和推荐系统。香港中文大学等提出的PilotANN通过混合CPU-GPU系统优化了向量搜索,显著提升了吞吐量和成本效益,适合大规模数据集。

PilotANN:基于图形的 ANNS 的 CPU-GPU 混合系统

实时互动网
实时互动网 · 2025-03-31T02:41:33Z

本文介绍了一种新颖的机器遗忘方法LoTUS,旨在消除训练样本对预训练模型的影响,避免重新训练。LoTUS通过平滑模型的预测概率,减轻数据记忆导致的过度自信。实验表明,LoTUS在效率和效果上优于现有方法,尤其在大规模数据集上表现出良好潜力。

LoTUS: Large-Scale Machine Unlearning with Uncertainty Characteristics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本研究提出了一种新方法:粒状球支持向量回归(GBSVR),旨在解决支持向量回归(SVR)在处理大规模数据集时的高计算成本和对异常值敏感的问题。GBSVR通过将数据点聚集为少量球体来简化计算,并在多个基准数据集上表现优于现有方法。

Granular Ball Support Vector Regression

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

DeepSeek 开源周发布的 3FS 是为 AI 高性能计算设计的分布式并行文件系统,优化大规模数据集处理,支持高 IOPS 和吞吐量,提升推理任务性能。

DeepSeek AI开源周5/5:开源高性能分布式并行文件系统3FS优化大规模数据集处理

蓝点网
蓝点网 · 2025-02-28T01:57:39Z

本文提出了一种改进的耦合Adam优化器,以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明,耦合Adam显著提高了嵌入质量,并优化了大规模数据集的任务性能。

Improving Embedding Representations through Coupled Adam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

该研究提出Kozax框架,旨在解决遗传编程中适应性评估的高计算需求问题,支持大规模数据集和自定义运算符,展示了在科学计算中的优化潜力。

Kozax: Flexible and Scalable Genetic Programming in JAX

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

HNSW算法在小型数据集上表现良好,但在大规模向量相似性搜索中存在内存依赖和性能下降的问题。相比之下,IVF算法通过减少距离计算和优化量化技术,提供了更高效的解决方案,特别适合大规模数据集,因其简洁性和可扩展性而更具实用性。

为什么 HNSW 不是最终的答案

高策
高策 · 2024-12-24T15:00:00Z

本研究提出了一种基于因果图模型的视觉-语言解码器,旨在提升对人类语言组合特性的理解。实验结果显示,该方法在多个基准测试中显著优于现有技术,并在大规模数据集上表现更佳。

Causal Graphical Models for Vision-Language Compositional Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种新方法,通过谱数据压缩加速UMAP,解决了其在大规模数据集上的效率问题。该方法在减少数据集大小的同时保持流形结构,实验结果表明嵌入质量未受影响。

通过谱粗化加速大规模数据集的UMAP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了一种基于随机抽样的简单算法,针对逻辑回归的二分类任务,确保高质量的预测概率近似。通过杠杆得分抽样,样本规模可显著小于总数据量,仍能实现准确近似,为大规模数据集提供高效解决方案。

一刀切:同时高效地近似所有概率值

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

本文研究了数据摘要中的公平聚类问题,特别是公平 k-供应商问题。提出了两种 3-近似算法,能够在大规模数据集上有效选择中心点,最小化目标函数,并在公平约束下具有实用性。

公正聚类用于数据摘要:改进的近似算法及复杂性洞察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文介绍了核方法在机器学习中的应用,包括解决大规模数据集问题的方法和近似误差的使用。同时指出了高斯核中的一种变体具有更高的方差和更糟糕的界限。

利用稀疏傅里叶域学习扩展连续核

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-15T00:00:00Z

该研究提出了一种解决主动学习算法在大规模数据集上可扩展性问题的近似算法。通过在GPU上的并行实现,该方法显著降低了存储和计算复杂度,并在多个数据集上展现了与现有最先进算法相当的准确性和更好的扩展性。

一种可扩展的主动学习算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

研究人员构建了一个由1500万个推文组成的大规模情绪原因数据集,包含超过70万个推文和对应的情绪-原因对。数据集涵盖了48个情绪类别,提供了抽象的情绪原因,有助于推进情绪-原因知识图谱的推理。

关于Mpox的Instagram叙事:一套用于情感、仇恨言论和焦虑分析的标记多语言数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本文提出了一种基于自监督对比学习的无监督人员再识别方法,结合了生成对抗网络和对比学习模块。实验证明该方法在多个大规模数据集上取得了比先前研究更好的效果。

短期与长期人脸重识别的解耦表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

本研究提出了动态门约束模块(DGC)和表达引导回归策略(EGR),以提升基于图的指称表达理解方法在处理复杂模型和大规模数据集时的性能。该方法在多个数据集上表现出色,超越了现有的变压器基础方法。

通过表达引导动态门控和回归使基于图的指称表达理解再创辉煌

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

本文介绍了DolphinDB在处理大规模数据集时的高效查询和计算能力,通过使用美国股票交易所4年的一级行情数据作为示例,演示了DolphinDB从2700亿条记录中提取一秒钟的股票数据只需7.9毫秒。整个市场一天的数据约为10GB。DolphinDB在查询少量数据和聚合大量数据时表现良好。

加速数据分析:拥抱高效查询与聚合计算

DEV Community
DEV Community · 2024-08-26T08:18:06Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码