OmniBooth:通过多模态指令学习潜在控制进行图像合成
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对现有文本到图像生成方法的局限,提出了OmniBooth框架,允许通过实例级多模态定制实现空间控制。创新性地引入潜在控制信号,使得图像生成不仅能够满足用户的文本或图像指导,还能提供更灵活的可控性和更高的合成质量。
MotionBooth是一个创新框架,通过精确控制对象和相机运动,为自定义主题提供动画效果。它利用少量图片微调文本到视频模型,采用主题区域损失和视频保护损失来提高学习效果,并整合主题与运动控制信号。无训练技术管理推理过程中的运动,使用交叉注意力地图和潜在位移模块控制对象和相机运动。评估显示其效果优越。