新加坡国立大学等机构联合推出EgoTwin,首次实现第一视角视频与人体动作的同步生成,解决了视角-动作对齐与因果耦合的技术难题。该框架基于扩散模型,能够生成一致且连贯的第一人称视频,推动可穿戴计算和AR应用的发展。
本文提出了一种新型可动画化三维高斯模型,能够实时渲染高保真度的人体动作。该模型通过增强型三维高斯表示和可学习代码,解决了高频细节合成中的抖动问题。实验结果显示,该模型在多个数据集上优于现有方法,具备高效的渲染速度和准确的外观表现。
本文介绍了一种新方法,通过局部操纵学习物体的全局关节,利用视频训练物体动力学生成模型,实现对变形的局部交互控制。该方法在视频生成和人体动作生成领域表现出色,能够生成连贯的动画视频,提升视频质量和动作精度。
本文提出了一种新方法,通过将任务分解为语言准确性和运动生成,生成3D室内场景中的人体动作。研究利用大规模数据集和基于Transformer的框架,实现高多样性和保真度的多主体运动序列,并综述了文本、音频和场景条件下的人体运动生成方法,讨论了未来研究方向。
本研究介绍了LGTM,一种新颖的本地到全局流程,用于将文本描述准确转化为计算机动画中的人体动作。实验结果表明,LGTM在生成局部准确、语义对齐的人体动作方面取得了显著改进。
T2M-HiFiGPT是一种新型条件生成框架,能够生成人体动作。它基于RVQ-VAE和双层GPT结构,研究表明RVQ-VAE能够产生高精度的2D时间-残差离散动作表示。双层GPT结构能够将先前帧和文本描述的信息压缩成1D上下文向量,并通过RVQ-VAE解码器将生成的残差离散指标转化回动作数据。该框架在HumanML3D和KIT-ML数据集上表现出色,优于最新的基于扩散和GPT的方法。
本研究使用单个鱼眼相机进行自我中心的全身动作捕捉,同时估计人体和手部动作。提出了一种新的方法,利用FisheyeViT提取鱼眼图像特征,将其转换为像素对齐的3D热图表示以预测3D人体姿势。整合了专用的手部检测和手部姿势估计网络以回归3D手部姿势。开发了基于扩散的全身动作先验模型,以在考虑关节不确定性的同时对估计的全身动作进行优化。通过收集一个大型合成数据集EgoWholeBody,训练了这些网络。定量和定性评估证明了方法的有效性。
本文提出了一种自我监督的方法来生成多样且自然的人体动作,通过分解生成任务并使用记忆库检索动作引用作为短程片段生成的源材料,并通过参数化的双向插值方案保证了生成运动的物理合理性和视觉自然性。该方法在大规模的骨架数据集上展示了在生成长距离、多样化和合理化运动方面的能力,并且能够适应未见数据,在动态世界中生成的序列有实实在在的效果。
本文介绍了一种自我监督的方法来生成多样且自然的人体动作,通过分解生成任务并使用记忆库检索动作引用作为短程片段生成的源材料,通过参数化的双向插值方案保证了生成运动的物理合理性和视觉自然性。该方法在大规模的骨架数据集上展示了生成长距离、多样化和合理化运动的能力,并且能够适应未见数据,在动态世界中生成的序列效果显著。
完成下面两步后,将自动完成登录并继续当前操作。