总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

鹏城实验室与南方科技大学、中山大学联合发布并开源了ARIO具身智能领域学术成果,该成果是一个具备多种模态感知数据的大规模数据集,旨在解决具身智能领域的数据获取难题。该数据集包含2D、3D、文本、触觉和声音等感知数据,涵盖了操作和导航两大类任务,并包含多种机器人硬件。鹏城实验室还设计了一套针对具身大数据的格式标准,以满足具身智能大模型对感知和控制时序的精确要求。ARIO数据集共有258个场景序列,321,064个任务,303万个样例。

🎯

关键要点

  • 鹏城实验室与南方科技大学、中山大学联合发布并开源了ARIO具身智能领域学术成果。

  • ARIO数据集是一个大规模数据集,包含多种模态感知数据,旨在解决数据获取难题。

  • 数据集包含2D、3D、文本、触觉和声音等感知数据,涵盖操作和导航两大类任务。

  • 数据集包含258个场景序列,321,064个任务,303万个样例。

  • 当前具身智能领域的数据采集面临高时间和成本的挑战,难以达到大规模。

  • 现有开源数据集存在数据量小、模态不丰富、格式不统一等问题。

  • ARIO数据集在数据规模和质量上达到高标准,包含丰富的感知数据模态。

  • 鹏城实验室设计了一套针对具身大数据的格式标准,以满足感知和控制时序的要求。

  • ARIO数据的来源包括真实环境采集、仿真引擎生成和现有数据集转换。

  • 通过统一格式设计,能够方便地对数据进行统计分析,了解机器人行业发展态势。

➡️

继续阅读