小红花·文摘

MotionClone 是一种无需训练的框架，通过时间注意力机制克隆运动以控制文本到视频生成，提升生成模型的空间关系和随机应变能力。研究探讨了视频与图片的信息性差异，提出了基于文本描述的运动检索任务，利用姿态估计和 Motion Transformer 模型进行内容检索，并提出了 KV Inversion 方法解决动作编辑问题，引入 Visual-Dynamic Injection 方法增强视频时刻理解。

任意再现：利用运动 - 文本反演进行语义视频运动迁移

BriefGPT - AI 论文速递 ·

本文提出了一种基于预训练图像修复扩散模型的视频编辑方法，通过对象感知的反转和重组（OIR）实现精细编辑。该方法优化了编辑步骤，确保视频帧中的编辑信息一致，尤其在多对象编辑中表现优异。研究还介绍了KV Inversion和TIC等新方法，解决了动作编辑和内容一致性问题，展示了强大的编辑性能和实时应用潜力。

移动与行动：图像编辑的增强物体操作和背景完整性

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的MMM运动生成模型，旨在平衡实时性、高保真度和动作可编辑性。MMM通过将3D动作转化为潜空间中的离散标记序列，实现高质量动画生成，并支持动作编辑和插值。实验结果表明，MMM在生成质量和速度上优于现有方法，尤其在与音乐协调的舞蹈动作生成方面表现突出。

BAMM: 双向自回归运动模型

BriefGPT - AI 论文速递 ·

KV Inversion是一种实现动作编辑并保留原始图像内容的方法，无需训练稳定弥散模型，也无需扫描大规模数据集进行训练。

KV 翻转：文本依赖的真实图像动作编辑中的 KV 嵌入学习

BriefGPT - AI 论文速递 ·