Sekyoro的博客小屋 ·

从论文中看AI绘画(二)

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

本文探讨了基于扩散模型的AI绘画技术，介绍了InstructPix2Pix、DreamPose和Animate Anyone等研究成果。这些方法通过图像编辑指令、静态图像生成动画视频和角色动画，实现了图像到视频的转换，提升了生成内容的连贯性和可控性。

🎯

InstructPix2Pix将基于指令的图像编辑视为监督学习问题，通过生成文本编辑指令和图像配对训练数据集，训练图像编辑扩散模型。
DreamPose提出了一种基于扩散的从静态图像生成动画视频的方法，结合了人体姿态序列和图像，使用新颖的微调策略和时间一致性技术。
Animate Anyone为角色动画设计了新框架，利用Reference Net保持外观特征一致性，并引入姿态引导器和时间建模方法以确保视频帧之间的平滑转换。
UniAnimate通过提取参考图像的潜在特征和姿态编码，使用统一的视频扩散模型去除噪声，实现一致的人物动画。
DisCo引入解纠缠控制的模型架构，以实现对人体姿态的精确改变，同时保持属性和背景的稳定性。
DynamiCrafter探索开放域图像的动态内容合成，将其转换为动画视频，利用文像转换扩散模型的运动先验来指导生成过程。

❓

InstructPix2Pix将图像编辑视为监督学习问题，通过生成文本编辑指令和图像配对训练数据集，训练图像编辑扩散模型。

DreamPose结合人体姿态序列和图像，使用微调策略和时间一致性技术，将静态图像转换为动画视频。

Animate Anyone利用Reference Net保持外观特征一致性，并引入姿态引导器和时间建模方法，确保视频帧之间的平滑转换。

UniAnimate通过提取参考图像的潜在特征和姿态编码，使用统一的视频扩散模型去除噪声，实现一致的人物动画。

DisCo引入解纠缠控制的模型架构，以实现对人体姿态的精确改变，同时保持属性和背景的稳定性。

DynamiCrafter探索开放域图像的动态内容合成，将其转换为动画视频，利用文像转换扩散模型的运动先验来指导生成过程。

🏷️