蚂蚁灵波推出的LingBot-Depth深度视觉模型,解决了机器人识别透明和反光物体的难题。该模型通过掩码深度建模技术提升深度感知能力,显著提高了机器人在复杂环境中的抓取成功率。团队还开源了模型及300万RGB-D数据集,推动行业发展。
本研究推出LEMUR开源数据集,旨在解决高质量神经网络数据集不足的问题,支持自动机器学习和模型分析,简化研究人员的工作流程。
NeurIPS(神经信息处理系统会议)是全球顶尖的人工智能学术会议,自1987年创办,2017年更名。2024年会议收到15671篇投稿,接收约4000篇论文。HyperAI汇总了9个高质量开源数据集,涵盖云层去除、手写阿拉伯文和化学光谱等领域。
HyperAI超神经汇总了9个高质量开源数据集,涵盖云层去除、化学光谱、歌声音频和自动驾驶等领域,为研究者提供了丰富的资源,促进相关技术的发展。NeurIPS 2024会议吸引了大量投稿,展示了人工智能领域的最新成果。
近年来,AI for Science迅速发展,推动医疗和材料研究。上海交通大学谢伟迪教授专注于医学人工智能,分享团队在多模态医疗模型和开源数据集方面的成果,旨在辅助医生,提高医疗资源的普适性。
本文探讨了大型语言模型训练数据的建设与优化,强调高质量数据集对模型智能化的重要性,分析了数据规模、采集方法、类型及处理流程,并概述了可用的开源数据集。
AIxiv专栏促进学术交流,报道超过2000篇内容。卡内基梅隆大学与华盛顿大学推出NaturalBench,评估视觉语言模型在自然图像理解上的能力。研究发现,现有模型在简单问题上表现不佳,受语言偏见影响。NaturalBench通过自然对抗样本进行评估,结果显示大多数模型的视觉理解和组合推理能力有限,需进一步提升。该数据集已开源,助力未来模型发展。
Meta发布OMat24开源数据集,包含超过1.1亿个DFT计算结果,旨在推动可再生能源存储技术研究。该数据集基于多种开源数据集构建,涵盖几乎所有元素,并配有EquiformerV2预训练模型,以提高材料稳定性预测的准确性。
上海交大团队开发了智能体心理诊所(AMC),利用对话智能体进行抑郁症初步诊断。AMC通过三层记忆结构提高诊断效率,并为医生提供指导。研究显示,AMC在抑郁症诊断和自杀预测方面表现优异,适用于培训和筛查。该研究还构建了符合临床标准的开源数据集D4。
这篇论文介绍了一个新的开源高保真度数据集,包含355个温莎车身几何变种,旨在支持汽车空气动力学的机器学习模型开发。该数据集具有宽松的开源许可,填补了现有资源的空白,提供高质量数据以加速汽车设计流程。
本文介绍了四种开源数据集:Pile、ROOTS、RefinedWeb和SlimPajama。Pile是一个多样性的大规模文本语料库,包含22个子集,涵盖了不同领域和主题。ROOTS是BigScience项目使用的数据集,包含59种语言,总大小约1.6TB。RefinedWeb是由TII开发的数据集,主要由高质量的CommonCrawl数据组成。SlimPajama是由CerebrasAI清洗和去重后的RedPajama数据集。文章还介绍了这些数据集的处理流程和方法。
本文总结了利用PHM数据挑战竞赛的开源数据集进行工业系统诊断和预测的机器学习方法,强调了传统机器学习和深度学习在解决复杂工业任务方面的作用和挑战。
该文介绍了一个适用于多种应用场景的人体动作识别框架,包括多形式人体检测和对应动作分类两个模块。通过构建开源数据集来训练多形式人体检测模型,从而识别人的整体、上半身或部分身体,并采用动作分类模型来识别跌倒、睡觉等动作。实验结果表明,该框架对于各种应用场景都是有效的,是一种新的面向应用的人体动作识别 AI 范式。
该研究提出了一种新的概率分布检测方法,利用系统调用序列。通过引入新的开源数据集,解决了大规模神经网络训练数据的限制。该方法在大多数新颖之处实现了超过95%的F值和AuROC,且数据和任务无关。
完成下面两步后,将自动完成登录并继续当前操作。