标签

 数据集 

相关的文章:

本列表汇集了最新的研究成果与应用案例,涵盖多种领域的数据集,助力人工智能与机器学习的快速发展。

CLONE——面向长时任务的闭环VR全身遥操:其MoE架构可实现“蹲着走”,且LiDAR里程计解决位置偏差,更增强AMASS数据集

为了历练新同事们,我给所有的新同事们分为了三个项目组(长沙及各地原有的老同事们 则继续之前的客户订单项目) 第一组 通过RL(uc伯克利hil-serl) 实现电源插拔 第二组 通过lerobot act/pi0,和VLA openpi 实现USB插拔 第三组 在弄人形,这两天搞的过程中 发现缺一些设备,所以下周到位后 正式开搞G1...

长沙具身团队正在扩招,分为三个项目组,专注于电源、USB插拔及人形机器人技术。CLONE系统通过闭环遥操作解决了人形机器人长时任务中的位置反馈问题,提升了人机协作能力。

原文中文,约5400字,阅读约需13分钟。发表于:
阅读原文
原文中文,约3300字,阅读约需8分钟。发表于:
阅读原文
原文英文,约700词,阅读约需3分钟。发表于:
阅读原文

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集

尽管 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本转图像 (T2I) 生成方面取得了显著进展,但实现一致的输出质量(包括美观度和对齐度...

Yandex 发布了 Alchemist,一个包含 3,350 个图像-文本对的公开 SFT 数据集,旨在提升文本到图像生成模型的输出质量。该数据集通过预训练的扩散模型筛选样本,注重高质量而非数量。评估结果显示,使用 Alchemist 微调的模型在美学和复杂度上显著提升,同时保持文本-图像相关性稳定。这一方法为生成视觉模型设定了新标准和资源。

Yandex 发布 Alchemist:用于提升文本转图像 T2I 模型质量的增强型监督微调数据集
原文中文,约2100字,阅读约需5分钟。发表于:
阅读原文
原文英文,约700词,阅读约需3分钟。发表于:
阅读原文
原文中文,约2300字,阅读约需6分钟。发表于:
阅读原文

覆盖2亿分子质谱图,捷克科学院发布DreaMS模型,构建全球最大规模质谱数据集GeMS

捷克科学院有机化学与生物化学研究所研究团队,借鉴了 GPT 系列在语言领域取得的突破性进展,从全球天然产物社交分子网络(GNPS)中挖掘出 7 亿条 MS/MS 谱图,成功构建起史上规模最大的质谱数据集 GeMS,并训练出拥有 1.16 亿参数的 Transformer 模型 DreaMS。

研究显示,当前天然小分子化学空间的探索不足10%,且90%的质谱图因缺乏注释而无法利用。捷克科学院团队开发的DreaMS模型通过自监督学习从7亿条质谱数据中提取分子特征,显著提高了质谱注释的准确性,为新药发现和疾病诊断提供了重要资源。

原文中文,约5200字,阅读约需13分钟。发表于:
阅读原文

阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升

兼容SFT、RL训练方法

阿里通义实验室推出MaskSearch框架,提升大模型推理与搜索能力。小模型表现接近大模型,兼容监督微调和强化学习,显著提升开放域问答性能。通过检索增强型掩码预测任务,模型有效学习信息处理与搜索引擎使用,适应多领域任务。

原文中文,约3200字,阅读约需8分钟。发表于:
阅读原文
发表于:
阅读原文

(SOTA)按需生成AI ML项目实时数据集的AI代理 - Perpendicular AI

This is a submission for the Bright Data AI Web Access Hackathon This is a project that I built for Bright Data MCP Hackathon. The reason I participated in this is to experiment with the MCP and...

Perpendicular AI是一个AI代理,利用先进的网络爬虫实时生成数据集,解决获取最新可信数据集的难题。它通过Bright Data工具提取和结构化来自不同网页的数据,支持多平台数据生成,提高了数据的准确性和收集效率,确保了可靠性。

(SOTA)按需生成AI ML项目实时数据集的AI代理 - Perpendicular AI
原文英文,约500词,阅读约需2分钟。发表于:
阅读原文