$EgoScale——第一视角的2万小时人类标注数据扩展VLA的灵巧操作能力(提出human egocentric data下的缩放定律)：先大规模人类预训练，再人机对齐，最后单条示范微调$

结构之法算法之道 ·

EgoScale——第一视角的2万小时人类标注数据扩展VLA的灵巧操作能力(提出human egocentric data下的缩放定律)：先大规模人类预训练，再人机对齐，最后单条示范微调

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

EgoScale是一个基于大规模自中心人类数据的灵巧操作迁移框架。通过在20854小时的动作标注视频上训练视觉-语言-动作模型，发现人类数据规模与验证损失呈对数线性关系。该框架采用两阶段迁移方案，先进行大规模预训练，再进行少量对齐的中期训练，使机器人在极少监督下实现灵巧操作。研究表明，预训练策略在不同机器人平台上均能有效迁移，提升任务成功率。

🎯

关键要点

EgoScale是一个基于大规模自中心人类数据的灵巧操作迁移框架。
该框架在20854小时的动作标注视频上训练视觉-语言-动作模型，发现人类数据规模与验证损失呈对数线性关系。
EgoScale采用两阶段迁移方案，先进行大规模预训练，再进行少量对齐的中期训练。
研究表明，预训练策略在不同机器人平台上均能有效迁移，提升任务成功率。
通过引入少量对齐的人机中期训练数据，模型能够在极少监督下实现灵巧操作。

❓

延伸问答

EgoScale的主要功能是什么？

EgoScale是一个基于大规模自中心人类数据的灵巧操作迁移框架，旨在通过人类数据提升机器人在复杂任务中的操作能力。

EgoScale是如何训练视觉-语言-动作模型的？

EgoScale在20854小时的动作标注视频上进行训练，发现人类数据规模与验证损失呈对数线性关系。

EgoScale的两阶段迁移方案包括哪些步骤？

该方案首先进行大规模人类预训练，然后进行少量对齐的人机中期训练。

EgoScale如何提高机器人任务成功率？

通过引入少量对齐的人机中期训练数据，EgoScale使机器人在极少监督下实现灵巧操作，显著提高任务成功率。

EgoScale的预训练策略在不同机器人平台上表现如何？

研究表明，预训练策略在不同机器人平台上均能有效迁移，提升任务成功率。

EgoScale的研究结果对灵巧操作领域有什么影响？

研究结果确立了大规模人类数据作为学习灵巧操控策略的可扩展且可预测的监督来源，推动了灵巧操作的研究进展。

🏷️

继续阅读

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
云端模型如何落地物理世界？招商局狮子山人工智能实验室用LiOS打通具身智能全链路
本文探讨了机器人在家庭环境中折叠衣物的挑战与技术进展。叠衣服是一项复杂的柔性物体操作任务，考验机器人的感知、控制和执行能力。招商局狮子山人工智能实验室通过...
过会！宇树科技成为A股具身智能第一股 | 全球深一度
宇树科技于6月1日通过科创板IPO审核，成为A股“具身智能第一股”。公司计划募资42.02亿元，估值达420亿元。自2016年成立以来，宇树科技实现快速增...
早期基准测试数据显示英伟达RTX SPARK N1X芯片性能相当于苹果M3 MAX
英伟达RTX SPARK N1X芯片的早期基准测试显示，其性能与苹果M3 MAX相当。N1X拥有20个核心，而M3 MAX则为14个核心。尽管M3 MAX...
时薪最高304元！马斯克xAI招募中文AI训练师，支持远程兼职
马斯克的人工智能公司xAI正在全球招聘“中文AI训练师”，以提升其大模型Grok的语音互动和多语言处理能力。该职位时薪35至45美元，工作灵活，适合寻求副...
我们如何将核心单元的启动时间从数小时缩短至三分钟
Cloudflare通过优化UEFI固件和网络启动接口，将核心服务器的启动时间从四小时缩短至三分钟。问题源于固件更新后，服务器在启动时盲目搜索网络接口，导...