本研究提出了StyleMotif模型,解决了运动生成和风格转移的局限。该模型通过风格-内容交叉融合机制,实现了多模态运动生成,能够准确捕捉参考风格并保留现实感,实验结果表明其在风格化运动生成方面优于现有技术。
本研究提出了一种骨架感知潜在扩散模型(SALAD),旨在解决文本驱动运动生成中关节、时间帧和文本表示的简化问题,从而显著提高文本与运动的对齐能力。
本研究提出了一种基于领导者-追随者动态的新方法,解决了文本生成互动运动中无法有效捕捉用户意图的问题。该方法通过解耦复杂运动,设计了一个无需再训练的框架,显著提高了生成运动的真实性和准确性。
本研究提出复合感知语义注入机制(CASIM),有效利用文本信息生成运动,显著提升运动的质量和可控性,尤其在控制精度和泛化能力方面表现突出。
本研究提出RMD基线,利用检索增强技术提升运动生成的泛化能力,有效解决数据集多样性和规模的限制,尤其在处理分布外数据时表现突出。
InfiniDreamer是一个新框架,解决了现有运动生成方法只能生成短序列的问题。它通过生成与文本描述对应的子运动,并利用片段评分蒸馏(SSD)优化长序列,从而能够生成一致且具上下文意识的任意长度运动序列。实验结果表明,该方法优于现有技术。
本文提出FTMoMamba框架,结合频率状态空间模型与文本状态空间模型,解决运动生成中频率信息被忽视的问题。实验结果表明,该框架在文本转运动生成任务中表现优异,明显优于现有方法。
本研究提出了一种全映射的方法,解决了文本到运动生成中的开放词汇问题,通过引入原子运动和文本分解,显著提升了运动生成的泛化能力。
本研究提出了一种基于注意机制的运动扩散模型MotionCLR,解决了现有模型在字级文本与运动对应关系上的不足,实验结果表明该方法具有良好的生成、编辑能力和可解释性。
本文介绍了一种基于扩散模型的文本驱动运动生成框架MotionDiffuse,能够生成复杂的人类运动。该模型通过优先级中心的运动分散扩散模型(M2DM)和细粒度控制方法,在多个数据集上表现优越,尤其在处理复杂文本描述时。此外,研究提出了基于马尔可夫决策过程的算法InstructMotion,优化了文本与动作的对齐,提升了生成效果。
本文介绍了基于扩散模型的运动生成框架,如MotionDiffuse和DragNUWA,强调其在视频生成中的精细控制能力。研究通过运动建模和图像到视频转换,解决了动作生成的连贯性和计算效率问题,提出了新的运动引导模块和无调整框架,提升了轨迹控制和生成质量。
本文介绍了FineHumanML3D数据集和FineMotionDiffuse模型,旨在从文本描述生成高质量的3D人体动作。研究通过任务分解,结合语言结构和上下文推理,提升了运动生成的多样性和保真度。实验证明,该方法在多个数据集上优于现有技术,展示了文本驱动的运动生成潜力。
本文提出了一种基于运动生成的视频生成方法,结合潜在运动生成和视频重建技术,采用LaMD框架实现高质量运动生成。同时介绍了MoDiff模型,通过自回归概率扩散生成控制时序依赖性的动作,提升运动合成的真实性和多样性。
本文提出了一种新方法,通过将任务分解为语言准确性和运动生成,生成3D室内场景中的人体动作。研究利用大规模数据集和基于Transformer的框架,实现高多样性和保真度的多主体运动序列,并综述了文本、音频和场景条件下的人体运动生成方法,讨论了未来研究方向。
该研究提出了一种名为HumanTOMATO的文本驱动整体运动生成框架,旨在生成高质量的面部表情、手势和身体动作。通过解决文本与动作的对齐问题,该模型在动作质量和文本一致性方面表现出色。此外,研究探讨了多模态信号转换和生成变压器在3D人体动作生成中的应用潜力。
该研究提出了可控运动扩散模型(COMODO),结合强化学习实现虚拟角色的实时运动生成。通过扩散模型和一致性模型,提升了运动生成性能,优化了机器人设计,并在多个任务中展现出优越的生成质量和推理速度。
本文提出了一种结合对抗性模仿学习和强化学习的系统,用于训练物理模拟角色在复杂场景中的交互任务。该系统无需手动注释数据,能够处理未见物体和场景。研究还提出了层次生成框架和新的运动综合方法,显著提高了运动生成的质量和准确性,实验结果优于现有方法。
本文介绍了一种移动机器人在未知环境中进行抓取的运动生成方法,强调通过视觉信息增益和任务效率优化规划。提出了两阶段架构,以确保在动态障碍物下的安全跟踪,并探讨了实时感知与反应的重要性,展示了在真实平台上的评估结果。
本文介绍了一种名为MotionGPT的多模态运动生成模型,该模型利用多种控制信号生成连续的人类动作。研究通过量化身体运动、预训练模型和令牌预测任务,展示了该方法的有效性和广泛应用潜力。同时,讨论了人体运动生成的背景、主流方法及未来研究方向,并提出了新数据集LaserHuman以推动相关研究。
本文介绍了一种新颖的MMM运动生成模型,旨在平衡实时性、高保真度和动作可编辑性。MMM通过将3D动作转化为潜空间中的离散标记序列,实现高质量动画生成,并支持动作编辑和插值。实验结果表明,MMM在生成质量和速度上优于现有方法,尤其在与音乐协调的舞蹈动作生成方面表现突出。
完成下面两步后,将自动完成登录并继续当前操作。