小红花·文摘

蚂蚁灵波推出的LingBot-Depth深度视觉模型，解决了机器人识别透明和反光物体的难题。该模型通过掩码深度建模技术提升深度感知能力，显著提高了机器人在复杂环境中的抓取成功率。团队还开源了模型及300万RGB-D数据集，推动行业发展。

机器人看不清，蚂蚁给治好了

量子位 ·

本研究推出LEMUR开源数据集，旨在解决高质量神经网络数据集不足的问题，支持自动机器学习和模型分析，简化研究人员的工作流程。

LEMUR Neural Network Dataset: Towards Seamless Automated Machine Learning

BriefGPT - AI 论文速递 ·

NeurIPS（神经信息处理系统会议）是全球顶尖的人工智能学术会议，自1987年创办，2017年更名。2024年会议收到15671篇投稿，接收约4000篇论文。HyperAI汇总了9个高质量开源数据集，涵盖云层去除、手写阿拉伯文和化学光谱等领域。

NeurIPS 2024 有效投稿达 15,671 篇，数据集版块内容丰富

HyperAI超神经 ·

NeurIPS 2024 数据集汇总｜覆盖云层去除/化学光谱/歌声音频/自动驾驶/昆虫标本······...

HyperAI超神经 ·

近年来，AI for Science迅速发展，推动医疗和材料研究。上海交通大学谢伟迪教授专注于医学人工智能，分享团队在多模态医疗模型和开源数据集方面的成果，旨在辅助医生，提高医疗资源的普适性。

从计算机视觉向医疗AI，上海交大谢伟迪发布多项成果，登Nature子刊/NeurIPS/CVPR等

HyperAI超神经 ·

本文探讨了大型语言模型训练数据的建设与优化，强调高质量数据集对模型智能化的重要性，分析了数据规模、采集方法、类型及处理流程，并概述了可用的开源数据集。

Training Data for Large Language Models

BriefGPT - AI 论文速递 ·

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

机器之心 ·

Meta发布OMat24开源数据集，包含超过1.1亿个DFT计算结果，旨在推动可再生能源存储技术研究。该数据集基于多种开源数据集构建，涵盖几乎所有元素，并配有EquiformerV2预训练模型，以提高材料稳定性预测的准确性。

几乎覆盖元素周期表！Meta 发布开源 OMat24 数据集，含 1.1 亿 DFT 计算结果

HyperAI超神经 ·

上海交大团队开发了智能体心理诊所（AMC），利用对话智能体进行抑郁症初步诊断。AMC通过三层记忆结构提高诊断效率，并为医生提供指导。研究显示，AMC在抑郁症诊断和自杀预测方面表现优异，适用于培训和筛查。该研究还构建了符合临床标准的开源数据集D4。

Agent心理诊所上线！基于1.3K抑郁症问诊对话，上海交大团队搭建大模型对话Agent，可初诊抑郁症

HyperAI超神经 ·

这篇论文介绍了一个新的开源高保真度数据集，包含355个温莎车身几何变种，旨在支持汽车空气动力学的机器学习模型开发。该数据集具有宽松的开源许可，填补了现有资源的空白，提供高质量数据以加速汽车设计流程。

AhmedML：非可压缩、低速钝体空气动力学的高保真计算流体动力学数据集

BriefGPT - AI 论文速递 ·

本文介绍了四种开源数据集：Pile、ROOTS、RefinedWeb和SlimPajama。Pile是一个多样性的大规模文本语料库，包含22个子集，涵盖了不同领域和主题。ROOTS是BigScience项目使用的数据集，包含59种语言，总大小约1.6TB。RefinedWeb是由TII开发的数据集，主要由高质量的CommonCrawl数据组成。SlimPajama是由CerebrasAI清洗和去重后的RedPajama数据集。文章还介绍了这些数据集的处理流程和方法。

4个大语言模型训练中的典型开源数据集

华为云官方博客 ·

本文总结了利用PHM数据挑战竞赛的开源数据集进行工业系统诊断和预测的机器学习方法，强调了传统机器学习和深度学习在解决复杂工业任务方面的作用和挑战。

工业系统的诊断和预测的机器学习方法综述：基于工业开源数据

BriefGPT - AI 论文速递 ·

该文介绍了一个适用于多种应用场景的人体动作识别框架，包括多形式人体检测和对应动作分类两个模块。通过构建开源数据集来训练多形式人体检测模型，从而识别人的整体、上半身或部分身体，并采用动作分类模型来识别跌倒、睡觉等动作。实验结果表明，该框架对于各种应用场景都是有效的，是一种新的面向应用的人体动作识别 AI 范式。

听行动：利用超声主动感知进行人类动作识别

BriefGPT - AI 论文速递 ·

该研究提出了一种新的概率分布检测方法，利用系统调用序列。通过引入新的开源数据集，解决了大规模神经网络训练数据的限制。该方法在大多数新颖之处实现了超过95%的F值和AuROC，且数据和任务无关。

语言模型用于系统调用轨迹的新颖性检测

BriefGPT - AI 论文速递 ·