图像修复模型为指导图像编辑提供有效工具
原文中文,约300字,阅读约需1分钟。发表于: 。通过连接大语言模型和图像生成模型,本文提出了一种通过中介指导(如掩模)而不是联合微调的方法,在编辑性能和成功率方面表现更好,实验结果表明,通过适当组合语言模型和图像修复模型,我们的流程可以达到较高的成功率和令人满意的视觉质量。
本文介绍了语言驱动的视频修复任务和ROVI数据集。作者提出了基于扩散的语言驱动视频修复框架,整合了多模态大规模语言模型,能够有效地理解和执行复杂的修复请求。作者展示了数据集的多样性和模型在不同语言指导下的有效性。计划公开发布数据集、代码和模型。