小红花·文摘

新加坡国立大学等机构联合推出EgoTwin，首次实现第一视角视频与人体动作的同步生成，解决了视角-动作对齐与因果耦合的技术难题。该框架基于扩散模型，能够生成一致且连贯的第一人称视频，推动可穿戴计算和AR应用的发展。

首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

量子位 ·

本文提出了一种新型可动画化三维高斯模型，能够实时渲染高保真度的人体动作。该模型通过增强型三维高斯表示和可学习代码，解决了高频细节合成中的抖动问题。实验结果显示，该模型在多个数据集上优于现有方法，具备高效的渲染速度和准确的外观表现。

EVA-Gaussian：基于3D高斯的实时人类新视角合成在不同相机设置下的应用

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法，通过局部操纵学习物体的全局关节，利用视频训练物体动力学生成模型，实现对变形的局部交互控制。该方法在视频生成和人体动作生成领域表现出色，能够生成连贯的动画视频，提升视频质量和动作精度。

傀儡大师：将互动视频生成扩展为部件级动态的运动先验

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，通过将任务分解为语言准确性和运动生成，生成3D室内场景中的人体动作。研究利用大规模数据集和基于Transformer的框架，实现高多样性和保真度的多主体运动序列，并综述了文本、音频和场景条件下的人体运动生成方法，讨论了未来研究方向。

CrowdMoGen：零封闭式文本驱动的群体运动生成

BriefGPT - AI 论文速递 ·

本文探讨了自然语言生成的人体动作度量标准，提出的新标准与人类判断相关性更高。研究表明，现有度量标准与人类评价的相关性较低，而基于MoBERT的新标准表现优异。文章回顾了人体运动生成的背景、主流方法及未来研究方向，旨在为该领域提供全面了解并激发新思路。

建立统一的人体动作生成评估框架：指标的比较分析

BriefGPT - AI 论文速递 ·

T2M-HiFiGPT是一种新型条件生成框架，能够生成人体动作。它基于RVQ-VAE和双层GPT结构，研究表明RVQ-VAE能够产生高精度的2D时间-残差离散动作表示。双层GPT结构能够将先前帧和文本描述的信息压缩成1D上下文向量，并通过RVQ-VAE解码器将生成的残差离散指标转化回动作数据。该框架在HumanML3D和KIT-ML数据集上表现出色，优于最新的基于扩散和GPT的方法。

T2M-HiFiGPT: 从文本描述中生成高质量的人体运动，使用离散残差表示

BriefGPT - AI 论文速递 ·

本研究使用单个鱼眼相机进行自我中心的全身动作捕捉，同时估计人体和手部动作。提出了一种新的方法，利用FisheyeViT提取鱼眼图像特征，将其转换为像素对齐的3D热图表示以预测3D人体姿势。整合了专用的手部检测和手部姿势估计网络以回归3D手部姿势。开发了基于扩散的全身动作先验模型，以在考虑关节不确定性的同时对估计的全身动作进行优化。通过收集一个大型合成数据集EgoWholeBody，训练了这些网络。定量和定性评估证明了方法的有效性。

基于 FisheyeViT 和基于扩散的动作精炼技术的自我中心全身运动捕获

BriefGPT - AI 论文速递 ·

本文提出了一种自我监督的方法来生成多样且自然的人体动作，通过分解生成任务并使用记忆库检索动作引用作为短程片段生成的源材料，并通过参数化的双向插值方案保证了生成运动的物理合理性和视觉自然性。该方法在大规模的骨架数据集上展示了在生成长距离、多样化和合理化运动方面的能力，并且能够适应未见数据，在动态世界中生成的序列有实实在在的效果。

基于扩散概率模型的人 - 物交互的分层生成

BriefGPT - AI 论文速递 ·

本文介绍了一种自我监督的方法来生成多样且自然的人体动作，通过分解生成任务并使用记忆库检索动作引用作为短程片段生成的源材料，通过参数化的双向插值方案保证了生成运动的物理合理性和视觉自然性。该方法在大规模的骨架数据集上展示了生成长距离、多样化和合理化运动的能力，并且能够适应未见数据，在动态世界中生成的序列效果显著。

无明显驱动源控制角色动作

BriefGPT - AI 论文速递 ·

首次实现第一视角视频与人体动作同步生成！新框架攻克视角-动作对齐两大技术壁垒

EVA-Gaussian：基于3D高斯的实时人类新视角合成在不同相机设置下的应用

傀儡大师：将互动视频生成扩展为部件级动态的运动先验

CrowdMoGen：零封闭式文本驱动的群体运动生成

建立统一的人体动作生成评估框架：指标的比较分析

通过文本描述生成地面压力序列用于 HAR

T2M-HiFiGPT: 从文本描述中生成高质量的人体运动，使用离散残差表示

基于 FisheyeViT 和基于扩散的动作精炼技术的自我中心全身运动捕获

基于扩散概率模型的人 - 物交互的分层生成

无明显驱动源控制角色动作