GraspVLA是一种基于十亿级合成抓取数据集的机器人抓取模型,结合视觉语言模型和动作生成机制,提升了抓取技能的泛化能力。该模型通过渐进式动作生成方法,实现了仿真到现实的迁移,展现出优异的零样本性能。
北大和人大团队在通用人形机器人动作生成领域取得突破,推出百万规模数据集MotionLib和动作生成模型Being-M0,实现复杂人类动作向多类型机器人迁移,提升跨平台适配能力。
本研究提出R-Lodge模型,解决生成舞蹈模型中表现一致性不足的问题,通过舞蹈校准技术和递归序列表示学习,显著提升舞蹈动作的一致性。
研究团队提出了一种新型多模态语言模型,能够同时处理音频和文本输入,并生成相应的动作。该模型统一了人类动作的言语和非言语语言,尤其在数据稀缺情况下展现出优异的动作生成和理解能力。
本研究提出了一种新的粗到细自回归策略学习框架(CARP),旨在提高机器人视觉运动策略学习的效率和灵活性。该框架通过多尺度表示学习和细化预测两个阶段,显著提升了动作生成的精度和流畅性,推理速度提高了10倍,并实现了竞争性的成功率。
文章介绍了OmniH2O人形机器人,通过语音指令和预训练的文本到人体动作生成扩散模型(MDM)来控制动作。MDM利用文本提示生成多样化动作,体现文本到动作的多对多映射。其目标是在特定条件下合成人体动作,支持多种输入。扩散建模采用马尔可夫噪声过程,并使用几何损失正则化生成自然连贯的动作。
MMM运动生成模型通过将3D人体动作转化为潜空间中的离散标记序列,实现高保真和快速的动作生成。它使用条件掩码动画变换器来捕捉动作标记之间的依赖性,并与文本标记进行语义映射,支持细粒度文本描述的动作解码。MMM还支持动作编辑,通过掩码标记实现平滑过渡。实验显示,MMM在生成质量和速度上优于现有方法,并支持身体部位修改和动作插值等高级编辑功能。
本研究将大型语言模型应用于社交机器人,解决传统对话的不足。系统利用LLM生成符合机器人个性的回应,结合多种TTS引擎和动作库。情感识别模型动态选择语调,表情符号引导动作生成。试验表明,参与者认为机器人有共情力和娱乐性。尽管ASR错误影响小,但LLM的自我重复和虚构信息问题仍需注意。
本文提出了一种使用多角度注意机制的两阶段方法,通过生成变压器实现文本驱动的运动生成,实现了精细合成和动作生成。实验证明该方法优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。