机器之心 ·

总说具身智能的数据太贵，鹏城实验室开源百万规模标准化数据集

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

鹏城实验室与南方科技大学、中山大学联合发布并开源了ARIO具身智能领域学术成果，该成果是一个具备多种模态感知数据的大规模数据集，旨在解决具身智能领域的数据获取难题。该数据集包含2D、3D、文本、触觉和声音等感知数据，涵盖了操作和导航两大类任务，并包含多种机器人硬件。鹏城实验室还设计了一套针对具身大数据的格式标准，以满足具身智能大模型对感知和控制时序的精确要求。ARIO数据集共有258个场景序列，321,064个任务，303万个样例。

🎯

关键要点

鹏城实验室与南方科技大学、中山大学联合发布并开源了ARIO具身智能领域学术成果。
ARIO数据集是一个大规模数据集，包含多种模态感知数据，旨在解决数据获取难题。
数据集包含2D、3D、文本、触觉和声音等感知数据，涵盖操作和导航两大类任务。
数据集包含258个场景序列，321,064个任务，303万个样例。
当前具身智能领域的数据采集面临高时间和成本的挑战，难以达到大规模。
现有开源数据集存在数据量小、模态不丰富、格式不统一等问题。
ARIO数据集在数据规模和质量上达到高标准，包含丰富的感知数据模态。
鹏城实验室设计了一套针对具身大数据的格式标准，以满足感知和控制时序的要求。
ARIO数据的来源包括真实环境采集、仿真引擎生成和现有数据集转换。
通过统一格式设计，能够方便地对数据进行统计分析，了解机器人行业发展态势。

❓

延伸问答

ARIO数据集的主要目的是什么？

ARIO数据集旨在解决具身智能领域的数据获取难题，提供多种模态的感知数据。

ARIO数据集包含哪些类型的感知数据？

ARIO数据集包含2D、3D、文本、触觉和声音等多种模态的感知数据。

鹏城实验室在数据集设计中采用了什么标准？

鹏城实验室设计了一套针对具身大数据的格式标准，以满足感知和控制时序的精确要求。

ARIO数据集的规模有多大？

ARIO数据集共有258个场景序列，321064个任务，303万个样例。

如何获取ARIO数据集？

可以通过论文原文和项目主页下载ARIO数据集。

当前具身智能领域面临哪些数据采集挑战？

具身智能领域面临高时间和成本的挑战，难以达到大规模的数据采集。

🏷️