标签

 数据集 

相关的文章:

本列表汇集了最新的研究成果与应用案例,涵盖多种领域的数据集,助力人工智能与机器学习的快速发展。

覆盖2亿分子质谱图,捷克科学院发布DreaMS模型,构建全球最大规模质谱数据集GeMS

捷克科学院有机化学与生物化学研究所研究团队,借鉴了 GPT 系列在语言领域取得的突破性进展,从全球天然产物社交分子网络(GNPS)中挖掘出 7 亿条 MS/MS 谱图,成功构建起史上规模最大的质谱数据集 GeMS,并训练出拥有 1.16 亿参数的 Transformer 模型 DreaMS。

研究显示,当前天然小分子化学空间的探索不足10%,且90%的质谱图因缺乏注释而无法利用。捷克科学院团队开发的DreaMS模型通过自监督学习从7亿条质谱数据中提取分子特征,显著提高了质谱注释的准确性,为新药发现和疾病诊断提供了重要资源。

原文中文,约5200字,阅读约需13分钟。发表于:
阅读原文

阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升

兼容SFT、RL训练方法

阿里通义实验室推出MaskSearch框架,提升大模型推理与搜索能力。小模型表现接近大模型,兼容监督微调和强化学习,显著提升开放域问答性能。通过检索增强型掩码预测任务,模型有效学习信息处理与搜索引擎使用,适应多领域任务。

原文中文,约3200字,阅读约需8分钟。发表于:
阅读原文
发表于:
阅读原文

(SOTA)按需生成AI ML项目实时数据集的AI代理 - Perpendicular AI

This is a submission for the Bright Data AI Web Access Hackathon This is a project that I built for Bright Data MCP Hackathon. The reason I participated in this is to experiment with the MCP and...

Perpendicular AI是一个AI代理,利用先进的网络爬虫实时生成数据集,解决获取最新可信数据集的难题。它通过Bright Data工具提取和结构化来自不同网页的数据,支持多平台数据生成,提高了数据的准确性和收集效率,确保了可靠性。

(SOTA)按需生成AI ML项目实时数据集的AI代理 - Perpendicular AI
原文英文,约500词,阅读约需2分钟。发表于:
阅读原文

ComfyUI Chroma解锁文生图新维度;OpenMathReasoning数学推理数据集,首个专注数学推理的高质量数据集

该数据集涵盖了多种化学成分和物理属性,每条数据对应一种独特的材料。该数据集重点关注 5-9...

Chroma是rock团队推出的文生图模型,基于FLUX.1-schnell的8.9B参数,支持影视级调色和特效合成,适用于动漫和艺术作品。用户通过ComfyUI可实现个性化创作,操作简便。

原文中文,约7500字,阅读约需18分钟。发表于:
阅读原文

Robo2VLM:来自大型野外机器人操作数据集的视觉问答

本研究针对现有视觉语言模型在真实情境下的应用能力不足的问题,提出了一种名为Robo2VLM的视觉问答数据集生成框架。通过利用多模态机器人轨迹数据生成具有空间和交互推理问题的视觉问答查询,研究结果表明Robo2VLM-1能够有效基准测试和提升视觉语言模型在空间和交互推理方面的能力。

本研究提出Robo2VLM框架,生成视觉问答数据集,以解决现有视觉语言模型在实际应用中的不足,增强其空间和交互推理能力。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

UWSAM:基于“分割任何模型”的水下实例分割及其大规模基准数据集

本研究解决了水下实例分割任务中现有模型(如SAM)在技术和应用方面的不足。我们提出了UIIS10K数据集,并设计了高效的UWSAM模型,通过知识蒸馏和自动生成水下提示,显著提升了水下实例分割的准确性和效率。实验结果表明,该模型在多个水下实例数据集上表现优异,推动了水下视觉任务的进一步发展。

本研究提出了UIIS10K数据集和高效的UWSAM模型,显著提升了水下实例分割任务的准确性和效率,推动了水下视觉任务的发展。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

Robo-DM:大规模机器人数据集的数据管理

本研究解决了大型机器人演示数据集的管理挑战,特别是在数据的策划、分发和加载方面。提出的Robo-DM工具包是一种高效的开源云数据管理工具,能显著减小数据集大小,降低传输成本并提高加载速度,其压缩性能相比现有格式可节省空间高达70倍,且不会影响下游任务的准确性。

本研究提出Robo-DM工具包,旨在高效管理大型机器人演示数据集,显著减小数据集大小,降低传输成本,提高加载速度,压缩性能可节省空间高达70倍。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

FragFake:用于细粒度检测编辑图像的基准数据集结合视觉语言模型

本研究针对现有图像编辑检测中的三个关键挑战,提出了FragFake数据集,以提供高质量的编辑图像检测基准。通过首次运用视觉语言模型进行编辑图像分类和定位,实验结果表明经过微调的模型在所有数据集上均表现出更高的精确度。本研究开创了一种将局部图像编辑检测重新定义为视觉语言理解任务的新方法,预计将推动多模态内容真实性领域的后续研究。

本研究提出FragFake数据集,旨在解决图像编辑检测中的三大挑战。通过视觉语言模型进行分类和定位,微调后的模型在各数据集上表现优异,推动了多模态内容真实性的研究。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

达里亚·尼古拉延科:PostgreSQL中的数据归档与保留。大数据集的最佳实践

Just over a week ago, I attended PGConf.DE 2025 in Berlin with the rest of the Data Egret team and gave a talk titled “Data Archiving and Retention in PostgreSQL: Best Practices for Large...

在PostgreSQL中,最佳的数据归档和保留实践包括分区、压缩和归档。分区提高查询性能并简化清理,压缩节省存储空间并提升写入性能,归档将旧数据移至低成本存储。自动化管理数据生命周期,确保高效处理大数据集。

达里亚·尼古拉延科:PostgreSQL中的数据归档与保留。大数据集的最佳实践
原文英文,约2400词,阅读约需9分钟。发表于:
阅读原文