总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

鹏城实验室与南方科技大学、中山大学联合发布并开源了ARIO具身智能领域学术成果,该成果是一个具备多种模态感知数据的大规模数据集,旨在解决具身智能领域的数据获取难题。该数据集包含2D、3D、文本、触觉和声音等感知数据,涵盖了操作和导航两大类任务,并包含多种机器人硬件。鹏城实验室还设计了一套针对具身大数据的格式标准,以满足具身智能大模型对感知和控制时序的精确要求。ARIO数据集共有258个场景序列,321,064个任务,303万个样例。

🎯

关键要点

  • 鹏城实验室与南方科技大学、中山大学联合发布并开源了ARIO具身智能领域学术成果。
  • ARIO数据集是一个大规模数据集,包含多种模态感知数据,旨在解决数据获取难题。
  • 数据集包含2D、3D、文本、触觉和声音等感知数据,涵盖操作和导航两大类任务。
  • 数据集包含258个场景序列,321,064个任务,303万个样例。
  • 当前具身智能领域的数据采集面临高时间和成本的挑战,难以达到大规模。
  • 现有开源数据集存在数据量小、模态不丰富、格式不统一等问题。
  • ARIO数据集在数据规模和质量上达到高标准,包含丰富的感知数据模态。
  • 鹏城实验室设计了一套针对具身大数据的格式标准,以满足感知和控制时序的要求。
  • ARIO数据的来源包括真实环境采集、仿真引擎生成和现有数据集转换。
  • 通过统一格式设计,能够方便地对数据进行统计分析,了解机器人行业发展态势。

延伸问答

ARIO数据集的主要目的是什么?

ARIO数据集旨在解决具身智能领域的数据获取难题,提供多种模态的感知数据。

ARIO数据集包含哪些类型的感知数据?

ARIO数据集包含2D、3D、文本、触觉和声音等多种模态的感知数据。

鹏城实验室在数据集设计中采用了什么标准?

鹏城实验室设计了一套针对具身大数据的格式标准,以满足感知和控制时序的精确要求。

ARIO数据集的规模有多大?

ARIO数据集共有258个场景序列,321064个任务,303万个样例。

如何获取ARIO数据集?

可以通过论文原文和项目主页下载ARIO数据集。

当前具身智能领域面临哪些数据采集挑战?

具身智能领域面临高时间和成本的挑战,难以达到大规模的数据采集。

➡️

继续阅读