小红花·文摘

$GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术$

GraspVLA——在互联网数据和十亿级规模合成动作数据SynGrasp-1B上预训练的抓取基础模型：基于渐进式动作生成PAG技术

结构之法算法之道 ·

北大和人大团队在通用人形机器人动作生成领域取得突破，推出百万规模数据集MotionLib和动作生成模型Being-M0，实现复杂人类动作向多类型机器人迁移，提升跨平台适配能力。

百万规模数据集打造人形机器人通用大模型，实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布

量子位 ·

本研究提出R-Lodge模型，解决生成舞蹈模型中表现一致性不足的问题，通过舞蹈校准技术和递归序列表示学习，显著提升舞蹈动作的一致性。

Dance Calibration Based on Recursive Convolutional Blocks to Enhance Dance Consistency

BriefGPT - AI 论文速递 ·

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

机器之心 ·

本研究提出了一种新的粗到细自回归策略学习框架（CARP），旨在提高机器人视觉运动策略学习的效率和灵活性。该框架通过多尺度表示学习和细化预测两个阶段，显著提升了动作生成的精度和流畅性，推理速度提高了10倍，并实现了竞争性的成功率。

CARP: Visuomotor Policy Learning Based on Coarse-to-Fine Autoregressive Prediction

BriefGPT - AI 论文速递 ·

文章介绍了OmniH2O人形机器人，通过语音指令和预训练的文本到人体动作生成扩散模型（MDM）来控制动作。MDM利用文本提示生成多样化动作，体现文本到动作的多对多映射。其目标是在特定条件下合成人体动作，支持多种输入。扩散建模采用马尔可夫噪声过程，并使用几何损失正则化生成自然连贯的动作。

从MDM、RobotMDM到UC San Diego的Exbody(含Exbody 2)——人体运动扩散模型：赋能机器人的训练

结构之法算法之道 ·

MMM运动生成模型通过将3D人体动作转化为潜空间中的离散标记序列，实现高保真和快速的动作生成。它使用条件掩码动画变换器来捕捉动作标记之间的依赖性，并与文本标记进行语义映射，支持细粒度文本描述的动作解码。MMM还支持动作编辑，通过掩码标记实现平滑过渡。实验显示，MMM在生成质量和速度上优于现有方法，并支持身体部位修改和动作插值等高级编辑功能。

LaMP：用于运动生成、检索和描述的语言-运动预训练

BriefGPT - AI 论文速递 ·

本研究将大型语言模型应用于社交机器人，解决传统对话的不足。系统利用LLM生成符合机器人个性的回应，结合多种TTS引擎和动作库。情感识别模型动态选择语调，表情符号引导动作生成。试验表明，参与者认为机器人有共情力和娱乐性。尽管ASR错误影响小，但LLM的自我重复和虚构信息问题仍需注意。

在线对话促进中的机器人回声：跨代研究

BriefGPT - AI 论文速递 ·

本文提出了一种使用多角度注意机制的两阶段方法，通过生成变压器实现文本驱动的运动生成，实现了精细合成和动作生成。实验证明该方法优于现有技术。

语义增强：用增强的文本线索提升动态生成

BriefGPT - AI 论文速递 ·