小红花·文摘

Diffusion Policy笔记

plus studio ·

本文介绍了NaVid，一个用于视觉与语言导航的新模型。NaVid通过视频输入和自然语言指令，在连续环境中导航，无需地图或深度信息。该模型结合预训练的视觉编码器和大型语言模型，实现高效的动作规划，展现出优越的泛化能力和鲁棒性，尤其在仿真到现实的应用中表现突出。

NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步：无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)

结构之法算法之道 ·

LeCun团队推出PEVA模型，实现了16秒的连贯场景预测，赋予机器人具身智能，能够主动理解环境。该模型通过结构化动作表示和条件扩散Transformer，模拟人类预判能力，提升智能体的动作规划和视觉生成，标志着AI从“人工智障”向“人工预判”的进化。

LeCun发布最新世界模型：首次实现16秒连贯场景预测，具身智能掌握第一视角！还打脸用了VAE

量子位 ·

本研究提出了以技能为中心的框架MOSAIC，旨在解决机器人和人工智能领域的长时间跨度动作规划问题。该框架通过整合技能生成与连接，系统化探索技能组合，有效应对复杂任务，展现出重要的应用潜力。

MOSAIC：一种以技能为中心的长时间跨度操控规划算法框架

BriefGPT - AI 论文速递 ·

具身智能新高度！智元机器人推出全球首个4D世界模型EnerVerse

机器之心 ·

智元机器人推出的EnerVerse架构结合自回归扩散模型，显著提升了机器人在具身智能领域的动作规划能力。通过稀疏记忆机制和自由锚定视角，EnerVerse在4D生成和动作规划任务中达到了当前的最先进水平，展现出优越的性能和逻辑合理性。

智元机器人发布机器人4D世界模型

量子位 ·

本文介绍了多个机器人任务与动作规划的基准测试，如ManiSkill2、FurnitureBench和COLOSSEUM，旨在评估不同算法在复杂环境中的表现。研究发现，现有算法在环境扰动下的成功率显著下降，强调了提高操作泛化能力的重要性。此外，RobotScript平台和Manipulate-Anything方法展示了基于大型语言模型的机器人操作策略生成的潜力。

M${}^{3}$Bench：移动操控在三维场景下的全身运动生成基准测试

BriefGPT - AI 论文速递 ·

本文介绍了一种基于自然语言的人机协作接口RoboTool，结合大型语言模型与轨迹信息，通过模仿学习和实验验证其在机器人任务中的有效性。该系统能够接受自然语言指令并生成可执行的机器人控制代码，扩展机器人的能力。同时，研究展示了利用自然语言推理改善机器人动作规划的潜力，并提出新方法以克服自然语言的限制，实现更复杂的任务。

朝着无代码编程的协作机器人：与大型代码模型进行对话编程的代码合成实验

BriefGPT - AI 论文速递 ·

本文提出了一种新型超声波嵌入式智能系统，结合大型语言模型和领域知识，提升超声波机器人的智能和操作效率。该系统能够根据医生的口头指令进行精确动作规划和动态调整扫描计划，从而显著提高超声波扫描的效率和质量，为自主医学扫描技术的发展奠定基础。

辅导机器人超声医生：通过稀疏专家反馈学习机器人超声

BriefGPT - AI 论文速递 ·