BriefGPT - AI 论文速递 ·

这个与那个：基于语言和手势的机器人规划视频生成

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文研究如何利用人类视频数据学习机器人与未知对象的交互技能。通过视频生成模型和强化学习，提出了一种视觉-运动策略学习框架，实现了在新环境中的任务泛化。实验结果表明，该方法在机器人操作中具有显著效果，展示了视频生成在机器人领域的重要性。

🎯

❓

通过分解方法从人类视频中学习任务，并将其转化为机器人的行为，实现零样本通用操作。

这是一个通过视频生成模型和强化学习来学习任务的框架，能够在新环境中进行任务泛化。

实验表明，利用互联网规模的生成模型可以实现比现有行为克隆方法更高的泛化能力。

视频生成可以解决现实世界中的任务，并在机器人、自动驾驶和科学等领域产生重大影响。

通过视频语言规划算法，利用多模态规划将生成的视频转化为真实的机器人行动。

研究表明在物理和社会人机通信和交互方面有很大的改进空间，强调了人类动作观察的重要性。

🏷️

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
Seedance MCP 对接指南
Seedance MCP 是由 Anthropic 推出的模型上下文协议，允许 AI 模型通过标准化接口调用外部工具。用户可以通过 AceData Clo...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
Cloudflare观测数据显示全网机器人流量已经超过真实人类产生的访问
Cloudflare数据显示，机器人流量已超过真实人类流量，达到57.5%。这一增长与AI智能体的快速采用密切相关。尽管机器人流量在HTTP请求中占比更高...
我们在2026年5月发布的最新AI新闻
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...