麻省理工学院的工程师们开发了一种超声波腕带,能够实时精确追踪佩戴者的手部动作,并通过人工智能算法将这些动作转化为机器人或虚拟环境中的操作。研究表明,佩戴者可以无线控制机器人进行弹钢琴和投篮等活动。团队计划进一步缩小腕带硬件,并训练AI软件以适应更多手势,实现更高灵活性的手部动作追踪。
DreamZero是一种新型世界动作模型,通过联合预测视频和动作,提升机器人在新环境中的泛化能力。与传统模型相比,DreamZero能够高效学习多样化技能,支持零样本泛化,并实现实时控制。其核心在于利用预训练的视频扩散模型,结合自回归架构和优化策略,提高推理速度和准确性。
本文介绍了MetaWorld,一个基于分层世界模型的机器人控制框架,旨在弥合高层语义理解与低层物理执行之间的鸿沟。该框架结合视觉-语言模型、模仿学习和强化学习的优势,通过分层架构进行任务解析和动作生成,提升机器人在动态环境中的适应性和泛化能力。
蚂蚁灵波开源的LingBot-VA具身世界模型结合视频生成与机器人控制,能够实时推演和执行动作,在复杂任务中表现优异,成功率显著提升,采用新架构实现高效推理,推动具身智能的发展。
本文介绍了Hume模型,该模型结合双系统思维(System-1和System-2),提升机器人在复杂任务中的表现。Hume通过价值引导的重复采样和级联动作去噪机制,实现高效的动作预测和实时控制。System-2生成候选动作并评估其价值,System-1则快速执行细化动作,使机器人能够灵活应对动态环境。
本文讨论了流策略优化(FPO)在强化学习中的应用,强调其通过条件流匹配损失替代传统高斯似然损失,从而提高策略表达能力。FPO有效处理多峰决策问题,适用于复杂任务,如机器人控制,并通过优化证据下界(ELBO)简化计算过程,提升学习效率。
本文探讨了EmbodiedOneVision模型,该模型通过交错的视觉-文本-动作预训练,实现灵活的多模态推理与动作生成。EO-1采用统一架构,结合离散自回归解码与连续流匹配,提升机器人控制的泛化能力,并强调多模态数据的重要性,提出新的训练方法以优化推理与执行的整合。
本文介绍了多个基于.NET的开发项目,如机器人控制、C#代码执行、PDF处理和JSON Schema支持,强调了技术选型和架构设计的实用性,为开发者提供了宝贵的参考和实践经验。
本文探讨了通过知识隔离和联合训练提升视觉-语言-动作模型(VLA)性能的方法。研究表明,传统训练方法导致知识损失和推理速度慢。作者提出的知识隔离技术有效保护预训练模型知识,同时使模型适应机器人控制任务,从而加快训练和推理速度。
Google DeepMind推出Gemini Robotics On-Device机器人控制模型,该模型可在本地离线运行,具备视觉识别、语言理解和动作执行能力。通过少量示范学习,模型能快速适应多种任务,推动机器人技术的普及与应用,但安全性和多步骤逻辑规划仍需改进。
上海AI实验室推出VeBrain通用智能大脑,集成视觉感知、空间推理和机器人控制,实现机器人像人类一样的“看到-思考-行动”。该模型通过关键点检测和技能识别,提升多模态理解与控制能力,测试结果显示其在多个任务中表现优异。
Hugging Face推出了SmolVLA,一个轻量级的视觉-语言-动作模型,旨在以低成本和高效能实现机器人控制。该模型基于社区数据训练,优化于单GPU或CPU环境,具备低延迟和高成功率,适用于多种机器人平台。SmolVLA的异步推理提高了控制效率,显著降低了计算需求,为未来的机器人学习研究奠定基础。
本文分析了π0模型在机器人控制中的应用,重点介绍了模型的配置、训练、推理及注意力机制优化,并强调了与LeRobot框架的集成及多模态输入处理。
本研究提出了一种基于Adam的扩散策略优化(ADPO)算法,旨在提升扩散模型在强化学习中的优化速度和稳定性。实验结果表明,ADPO在机器人控制任务中表现优异,具有广泛的应用潜力。
本研究提出了一种潜在空间向后规划方案(LBP),显著提升了机器人实时控制的效率与准确性。实验结果表明,LBP在长时间行为任务中优于传统方法,达成了领先性能。
本文探讨了利用大型语言模型(LLMs)控制机器人,强调易用性、透明性和安全性。通过自然语言交流,多个LLMs协作,使人类能够理解和修改机器人行为。区块链技术用于存储和执行规则,确保机器人符合人类价值观。LLMs使机器人能够理解指令并自主决策,简化传统编程的复杂性。
本研究提出了一种新颖的视觉-语言-动作架构OPAL,解决了机器人控制中的因果理解缺失问题。实验结果表明,OPAL在复杂操作任务上优于传统方法,显著提升了零样本性能,并减少了42%的推理计算需求。
本研究提出了一种自适应梯度遮罩强化(AGMR)攻击方法,旨在解决深度强化学习在机器人控制中的脆弱性。AGMR通过动态识别关键状态和优化对抗策略,显著提高了对抗攻击的有效性和受害者代理的鲁棒性,实验结果表明其优于现有方法。
生成模型在智能决策中展现出巨大潜力,能够处理复杂数据并生成多样化策略。本文梳理了七种生成模型在机器人控制、自动驾驶和游戏AI等领域的应用,探讨了未来的发展方向,包括高效算法、大规模泛化能力和自适应模型。生成式AI正在重塑智能决策的未来。
上海AI Lab团队在机器人控制领域取得突破,提出HoST算法,使人形机器人能够在复杂环境中自主站立。该算法基于强化学习,解决了坐立转换问题,具备强抗干扰能力,适用于家庭和医疗场景。研究者设计多种奖励函数以优化控制策略,提升学习效率,并在多种地形上成功测试。
完成下面两步后,将自动完成登录并继续当前操作。