结构之法算法之道 ·

ViLLA——继AgiBot World之后，智元发布GO1及其背后基于潜在动作的VLA架构ViLLA：利用海量的无标注视频做训练(含LAPA、Moto的详解)

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

智元推出了通用具身基座模型Genie Operator-1，基于Vision-Language-Latent-Action (ViLLA)架构，结合多模态大模型与混合专家，利用海量数据提升机器人操作能力，支持复杂任务，展现出优越的泛化性和灵活性。

🎯

关键要点

智元推出通用具身基座模型Genie Operator-1，基于ViLLA架构。
ViLLA架构结合多模态大模型和混合专家，提升机器人操作能力。
AgiBot World Colosseo是一个大规模机器人操作平台，收集了超过100万条轨迹。
硬件配置包括类人机器人、灵巧手和视觉触觉传感器，支持多模态数据收集。
Genie Operator-1通过潜在动作表示实现从异构数据中学习，提升泛化性和灵活性。
ViLLA框架分为三个训练阶段，利用潜在动作模型进行机器人控制动作预测。
潜在动作模型从网络规模的人类视频中提取动作信息，增强训练数据池。
潜在规划器结合视觉语言模型进行与实体无关的规划，提升机器人任务执行能力。

❓

延伸问答

ViLLA架构的主要组成部分是什么？

ViLLA架构主要由多模态大模型（VLM）和混合专家（MoE）组成。

Genie Operator-1的功能是什么？

Genie Operator-1通过潜在动作表示从异构数据中学习，提升机器人操作的泛化性和灵活性。

AgiBot World Colosseo的作用是什么？

AgiBot World Colosseo是一个大规模机器人操作平台，收集了超过100万条轨迹，支持多样化和复杂的机器人操作研究。

ViLLA框架的训练阶段是如何分配的？

ViLLA框架分为三个训练阶段，分别是潜在动作模型训练、潜在规划器伪标签生成和动作专家联合训练。

潜在动作模型如何增强训练数据池？

潜在动作模型通过从网络规模的人类视频中提取动作信息，扩大了训练数据池，弥补了标注数据的不足。

ViLLA架构如何提升机器人任务执行能力？

ViLLA架构结合视觉语言模型和潜在规划器，支持与实体无关的长时间规划，从而提升机器人任务执行能力。

🏷️

继续阅读

重构大模型通信架构：火山引擎 RocketMQ For AI 解决方案
AIGC技术推动大模型应用，但面临算力成本高和通信调度复杂等挑战。火山引擎推出RocketMQ For AI解决方案，通过轻量化通信和智能调度，提升系统稳...
Cerebras上市：有人说它能干翻英伟达 | 定制架构的生死局
Cerebras即将上市，其全定制晶圆级芯片在AI推理中表现出色，但面临供应链和客户集中风险。尽管与OpenAI签订了大单，实际硬件销售仍然困难，收入依赖...
欧洲通信卫星公司重申其前景展望，称OneWeb的增长抵消了视频业务的下滑
欧洲通信卫星公司（Eutelsat）第三季度营收为2.93亿欧元，连接业务增长15.3%，主要受低地球轨道（LEO）服务推动。视频业务收入下降13.3%。...
短视频好友：构建可扩展至亿万用户的社交发现
Meta推出的“好友气泡”功能展示了朋友观看和反应的短视频。该功能背后涉及复杂的机器学习模型，工程师们探讨了iOS与Android用户的行为差异，以及促成...
佳能最新的EOS R6相机专为视频拍摄而设计
佳能推出新款EOS R6 V无反相机，具备3250万像素和7K视频录制功能，专为视频拍摄设计。相机去除了取景器和机械快门，售价2499美元。同时发布的新镜...
在线教程丨单卡即可爆改，面壁智能等开源MiniCPM-V-4.6，1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话
近年来，AI行业认识到并非所有场景都需使用大型模型。高昂的推理成本和数据隐私风险使得小型模型在实际应用中更具效率。新开源的MiniCPM-V 4.6模型仅...