小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

KVectors向量数据库现已支持IVF_RABITQ索引。测试显示,构建999999个向量的索引耗时7分25秒,尽管检索性能有所下降,但仍适合大规模数据集。该数据库支持多种主流向量索引,软著申请正在审核中。

KVectors向量数据库完成IVF_RABITQ索引的支持啦~

王福强
王福强 · 2025-11-10T16:00:00Z
基于自适应空间标记化的可变形物体交互学习

本文提出了一种自适应空间标记化(AST)方法,旨在高效模拟可变形物体之间的交互。该方法通过将模拟空间划分为网格单元,并将非结构化网格映射到结构化网格上,从而提高计算效率。实验结果表明,该方法在处理超过10万个节点的大规模网格时,显著优于现有技术,并提供了一个新的大规模数据集以支持未来研究。

基于自适应空间标记化的可变形物体交互学习

Apple Machine Learning Research
Apple Machine Learning Research · 2025-11-04T00:00:00Z
8种扩展数据科学工作负载的方法

本文介绍了如何通过BigQuery简化数据科学工作,提供八种实用方法,如在电子表格中进行机器学习、使用BigQuery Sandbox进行无成本实验、在Colab笔记本中利用AI助手,以及处理大规模数据集等。这些工具旨在帮助数据科学家专注于分析,而非工具本身。

8种扩展数据科学工作负载的方法

KDnuggets
KDnuggets · 2025-07-22T17:00:57Z
PilotANN:基于图形的 ANNS 的 CPU-GPU 混合系统

近似最近邻搜索(ANNS)是一种用于高维向量检索的技术,广泛应用于搜索引擎和推荐系统。香港中文大学等提出的PilotANN通过混合CPU-GPU系统优化了向量搜索,显著提升了吞吐量和成本效益,适合大规模数据集。

PilotANN:基于图形的 ANNS 的 CPU-GPU 混合系统

实时互动网
实时互动网 · 2025-03-31T02:41:33Z

本文介绍了一种新颖的机器遗忘方法LoTUS,旨在消除训练样本对预训练模型的影响,避免重新训练。LoTUS通过平滑模型的预测概率,减轻数据记忆导致的过度自信。实验表明,LoTUS在效率和效果上优于现有方法,尤其在大规模数据集上表现出良好潜力。

LoTUS: Large-Scale Machine Unlearning with Uncertainty Characteristics

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本研究提出了一种新方法:粒状球支持向量回归(GBSVR),旨在解决支持向量回归(SVR)在处理大规模数据集时的高计算成本和对异常值敏感的问题。GBSVR通过将数据点聚集为少量球体来简化计算,并在多个基准数据集上表现优于现有方法。

Granular Ball Support Vector Regression

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

DeepSeek 开源周发布的 3FS 是为 AI 高性能计算设计的分布式并行文件系统,优化大规模数据集处理,支持高 IOPS 和吞吐量,提升推理任务性能。

DeepSeek AI开源周5/5:开源高性能分布式并行文件系统3FS优化大规模数据集处理

蓝点网
蓝点网 · 2025-02-28T01:57:39Z

本文提出了一种改进的耦合Adam优化器,以解决大型语言模型在学习词表示时的各向异性问题。实验结果表明,耦合Adam显著提高了嵌入质量,并优化了大规模数据集的任务性能。

Improving Embedding Representations through Coupled Adam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

该研究提出Kozax框架,旨在解决遗传编程中适应性评估的高计算需求问题,支持大规模数据集和自定义运算符,展示了在科学计算中的优化潜力。

Kozax: Flexible and Scalable Genetic Programming in JAX

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

HNSW算法在小型数据集上表现良好,但在大规模向量相似性搜索中存在内存依赖和性能下降的问题。相比之下,IVF算法通过减少距离计算和优化量化技术,提供了更高效的解决方案,特别适合大规模数据集,因其简洁性和可扩展性而更具实用性。

为什么 HNSW 不是最终的答案

高策
高策 · 2024-12-24T15:00:00Z

本研究提出了一种基于因果图模型的视觉-语言解码器,旨在提升对人类语言组合特性的理解。实验结果显示,该方法在多个基准测试中显著优于现有技术,并在大规模数据集上表现更佳。

Causal Graphical Models for Vision-Language Compositional Understanding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种新方法,通过谱数据压缩加速UMAP,解决了其在大规模数据集上的效率问题。该方法在减少数据集大小的同时保持流形结构,实验结果表明嵌入质量未受影响。

通过谱粗化加速大规模数据集的UMAP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本文研究了数据摘要中的公平聚类问题,特别是公平 k-供应商问题。提出了两种 3-近似算法,能够在大规模数据集上有效选择中心点,最小化目标函数,并在公平约束下具有实用性。

公正聚类用于数据摘要:改进的近似算法及复杂性洞察

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文研究了影响函数在大规模数据集中的应用,发现其预测效果与实际效果显著相关。探讨了影响函数在NLP模型和神经网络中的有效性,提出了新的评分方法和算法,解决了微调过程中的高成本问题,并展示了在减少训练数据的情况下仍能保持性能的潜力。

影响函数在大型语言模型上有效吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文提出了一种名为Subject-Diffusion的开放域个性化图像生成模型,能够通过参考图像实现个性化生成。研究构建了一个包含7600万图像的大规模数据集,并设计了统一框架以提高生成准确性。该模型在单一和多主体生成方面优于现有技术,采用注意力控制机制增强生成效果。

JeDi:联合图像扩散模型用于零微调个性化文本到图像生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z
数据科学家应该了解的OpenUSD知识

OpenUSD是一个强大的框架,用于处理和分析复杂数据模型。它具有统一的数据模型、可扩展性和通用性,适用于数据科学工作流和流水线。通过模式插件和Hydra 2.0中的运行时内核的可扩展性,OpenUSD能够高效处理和分析大规模数据集,实现更快速和可扩展的计算。数据科学家应该探索和利用OpenUSD等工具,发掘数据驱动努力的潜力。

数据科学家应该了解的OpenUSD知识

KDnuggets
KDnuggets · 2024-06-17T17:00:08Z

本研究提出了一种基于动态规划和搜索的学习算法,用于优化决策树,支持深度和节点数量限制。实验表明,该算法能够快速处理大规模数据集,提高决策树的实用性。同时,研究探讨了基于强化学习的组合优化方法,解决了不平衡数据和连续变量的优化问题,显著提升了构建速度和性能。

分支:用于优化决策树的快速动态规划和分支限界算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

本文提出了一种新型局部自适应带宽径向基函数核,增强了核的灵活性,并建立了非对称核岭回归框架。实验结果表明,该算法在大规模数据集上的回归准确度优于现有方法,甚至超过了残差神经网络。

非对称核学习的核岭回归学习分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z
MongoDB与COVESA在连接车辆领域的旅程

COVESA是一个专注于连接车辆系统的行业联盟,与MongoDB合作并标准化以加快开发。MongoDB通过其处理大规模数据集的专业知识为COVESA做出贡献。他们提供Atlas Device SDK和支持车辆信号规范(VSS)。MongoDB的贡献包括数据管理洞察和支持标准化工作。MongoDB最近与AWS合作,在CES 2024展示了其连接车辆解决方案。他们旨在提升最终用户体验并赋予汽车行业的原始设备制造商更多权力。

MongoDB与COVESA在连接车辆领域的旅程

MongoDB
MongoDB · 2024-04-15T17:00:00Z

本文研究了标签比例学习(LLP)模型在监督学习中的应用,提出新的学习框架和算法以提升分类器性能,适用于政治、营销和医疗等领域。同时,提出改进技术以解决标签噪声问题,并评估多种先进LLP技术在大规模数据集上的表现。

从标签比例学习布尔函数的难度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码