BriefGPT - AI 论文速递 ·

傀儡大师：将互动视频生成扩展为部件级动态的运动先验

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

本文介绍了一种新方法，通过局部操纵学习物体的全局关节，利用视频训练物体动力学生成模型，实现对变形的局部交互控制。该方法在视频生成和人体动作生成领域表现出色，能够生成连贯的动画视频，提升视频质量和动作精度。

🎯

关键要点

本文介绍了一种通过局部操纵学习全局关节的方法，训练只需移动物体的视频。
该方法通过学习物体动力学的生成模型，实现对变形的局部交互控制。
与现有的视频预测相比，该模型提供了对变形的局部交互控制，而非合成任意逼真的视频。
引入了Motion Diffusion Model（MDM），在人体运动领域实现了最先进的结果。
通过将语义和动作线索整合到扩散模型中，显著提升了视频质量、动作精度和语义连贯性。
提出了X-Portrait，一种用于生成富有表现力且时间连贯的肖像动画的条件扩散模型。
大运动模型（LMM）统一了多模态运动生成任务，通过综合不同类型的运动数据实现广泛泛化。
引入了一种可同时学习前景和背景动力学的技术，生成协调的视频。
基于运动先验和视频扩散模型的开放领域可控图像动画方法，实现对运动方向和速度的精确控制。
提出了一种新颖的循环扩散模型，解决了现有方法生成的动作序列不连贯和计算开销大的问题。

❓

延伸问答

这篇文章介绍了什么新方法？

文章介绍了一种通过局部操纵学习全局关节的方法，利用视频训练物体动力学生成模型，实现对变形的局部交互控制。

Motion Diffusion Model（MDM）在文章中有什么应用？

MDM是一种无分类器的扩散生成模型，专门用于人体运动领域，并在文本转运动和动作转运动的基准测试中取得了领先结果。

X-Portrait模型的主要特点是什么？

X-Portrait是一种条件扩散模型，旨在生成富有表现力且时间连贯的肖像动画。

文章中提到的循环扩散模型解决了什么问题？

循环扩散模型通过对时间维度建模，解决了现有方法生成的动作序列不连贯、时长短以及计算开销大的问题。

如何实现对运动方向和速度的精确控制？

通过基于运动先验和视频扩散模型的方法，能够在保持内容和场景一致性的同时，实现对可移动区域的运动方向和速度的精确控制。

大运动模型（LMM）有什么特点？

LMM是一个以运动为中心的多模态框架，将多种运动生成任务统一为一个通用模型，能够实现广泛泛化。

🏷️

标签

人体动作全局关节动画视频局部操纵视频生成

➡️

继续阅读

Getty Images扩大与Goalhanger的合作关系，加大对视频优先叙事方式的投资
视觉内容创作和市场 Getty Images 和独立播客制作商 Goalhanger 宣布扩大内容合作关系，以支持 Goalhanger 在其节目组合中不...
视频问诊延迟来自哪里：采集、编码、传输、渲染逐段拆解
视频问诊时画面卡住、声音和口型对不上，这些场景线上问诊的用户多少都遇到过。很多人第一反应是”网太差了”，实际上网络只是延迟链条上的一环。这篇把延迟从采集到渲...
Big Blue Marble 为云视频工具包添加了 C2PA 验证功能
Big Blue Marble 宣布已加入 C2PA 合规列表，该公司可以通过其云视频工具包（Cloud Video Kit）为视频内容生成有效的内容凭证...
使用 DDNS 动态更新 ZZ.AC 域名
现在 ZZ.AC 域名支持 DDNS 功能了，本文跟大家分享 DDNS 功能的设计理念和使用方法。
RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
视频问诊的技术原理：从采集到呈现，一条链路怎么跑通的
视频问诊背后的技术是怎么运作的？不是代码层面，而是从”患者端摄像头前的画面”到”医生端屏幕上看到的画面”，这条数据链路到底走了哪些步...