结构之法算法之道 ·

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC：先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

本文介绍了VITAL策略学习框架，通过将操作任务分为到达和局部交互两个阶段，结合视觉和触觉感知，提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位，并通过触觉反馈实现高精度操作，克服了模仿学习和强化学习的局限性。

🎯

关键要点

VITAL策略学习框架将操作任务分为到达和局部交互两个阶段，结合视觉和触觉感知。
VITAL利用视觉-语言模型进行目标定位，通过触觉反馈实现高精度操作。
模仿学习和强化学习各有缺点，VITAL结合两者的优势以提高泛化能力。
VITAL的全局到达阶段通过视觉-语言模型识别目标对象，局部交互阶段则利用触觉感知进行精细操作。
触觉传感在操作中提供关键的力和滑移反馈，显著提高成功率。
自中心视觉提供一致的视角，帮助机器人在不同环境中复现操作。
VITAL通过语义增强和视觉基础模型提升视觉多样性，增强策略的泛化能力。
残差强化学习用于微调策略，结合基础策略和残差偏移以提高性能。
VITAL的设计允许在不同环境中实现零样本自适应，提升操作的灵活性和准确性。

❓

延伸问答

VITAL策略学习框架的主要功能是什么？

VITAL框架通过将操作任务分为到达和局部交互两个阶段，结合视觉和触觉感知，提高机器人在精细操作中的成功率和泛化能力。

VITAL如何克服模仿学习和强化学习的局限性？

VITAL结合了模仿学习和强化学习的优势，通过视觉-语言模型进行目标定位，并利用触觉反馈实现高精度操作，从而克服了各自的缺点。

触觉传感在VITAL框架中起到什么作用？

触觉传感提供关于力和滑移的直接反馈，显著提高了操作的成功率，尤其是在需要精细接触的任务中。

VITAL的全局到达阶段是如何工作的？

全局到达阶段利用视觉-语言模型执行场景级推理，以识别并定位目标对象，为后续的局部交互阶段做准备。

VITAL如何实现零样本自适应？

VITAL通过识别可执行区域，将任务动态与环境配置解耦，实现对新空间配置的零样本自适应。

VITAL框架的设计如何提升策略的泛化能力？

VITAL通过语义增强和视觉基础模型提升视觉多样性，使得策略能够在不同环境中保持有效性，从而增强泛化能力。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符
视频编码技术正向机器视觉优化发展，主要有三种方案：面向机器的视频编码（VCM）、面向机器的特征编码（FCM）和V-Nova的LCEVC。VCM优化像素处理...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
网络设备曾经看起来像小型笔记本电脑，但现在它们变得更加个性化
近年来，网络设备（cyberdecks）向个性化发展，许多DIY爱好者在社交媒体上展示将计算机组件隐藏在手袋、玩具等物品中的创意。这些迷你Linux计算机...
PATH计划提升与行业对接的人工智能培训和职业机会
麻省理工学院与乔治亚州立大学合作推出PATH计划，旨在通过建立州级中心，连接大学、社区学院、行业和政府，提供与行业对接的人工智能培训。该计划强调实践学习，...