量子位 ·

让世界模型直接控制机器人动作，蚂蚁灵波开源具身世界模型LingBot-VA

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制，能够实时推演和执行动作，在复杂任务中表现优异，成功率显著提升，采用新架构实现高效推理，推动具身智能的发展。

🎯

关键要点

蚂蚁灵波开源具身世界模型LingBot-VA，结合视频生成与机器人控制。
LingBot-VA提出自回归视频-动作世界建模框架，实现边推演边行动。
在真机评测中，LingBot-VA在复杂物理交互任务中表现优异，成功率提升20%。
在仿真评测中，LingBot-VA在RoboTwin 2.0和LIBERO基准测试中刷新行业纪录，成功率超过90%和98.5%。
LingBot-VA采用Mixture-of-Transformers架构，实现视频处理与动作控制的跨模态融合。
通过闭环推演机制，LingBot-VA确保生成的画面与动作符合物理现实。
为解决计算瓶颈，LingBot-VA设计了异步推理管线，实现动作预测与电机执行并行化处理。
LingBot-VA探索出“世界模型赋能具身操作”的新路径，推动具身智能的发展。
LingBot-VA的模型权重和推理代码已全面开源。

🏷️

继续阅读

登顶行业SOTA的多模态视频生成标杆，昆仑天工刚给开源了
昆仑天工开源的多模态视频生成模型SkyReels-V3具备图生视频、视频延长和虚拟形象生成等功能，利用高质量数据和先进算法提升视频生成的真实性和连贯性，适...
简单安全文件传输，命令行直连任意电脑 | 开源日报 No.866
checkout 是 GitHub Actions 的动作，用于检出代码仓库并获取完整历史记录。jellyfin-desktop 是跨平台桌面客户端，集成...
精确管控智能体行为，构建可解释的规则驱动框架 | 开源日报 No.865
Fast-F1 是一个用于分析 F1 赛车数据的 Python 工具包，支持 Ergast API，提供高效的数据处理和可视化。compound-engi...
Robot Mall机器人快闪店开进北京核心商业综合体北辰荟
北京北辰荟开设了Robot Mall机器人快闪店，推出机器人雪糕打卡活动，日均接待超过8000人。观众可以与多种机器人互动，享受机器人制作的咖啡和冰淇淋，...
千问语音识别模型Qwen3-ASR开源！饶舌RAP歌曲也能轻松识别
阿里开源的Qwen3-ASR语音识别模型支持52种语言，能快速准确识别饶舌歌曲，处理5小时音频仅需10秒，适合AI硬件部署，开发者可免费下载使用。
进入全宇宙：物理AI开放模型和框架推动机器人与自主系统的发展
NVIDIA通过OpenUSD和Omniverse推动机器人和自主系统的创新，提供开放的AI模型和框架，支持开发者创建数字双胞胎和自主系统。CES展示了重...

让世界模型直接控制机器人动作，蚂蚁灵波开源具身世界模型LingBot-VA

内容提要

关键要点

标签

继续阅读