本研究解决了多模态扩散变换器中自注意力层对位置嵌入和查询-键相似性的依赖,提出了一种无训练的图像编辑框架,提升了图像编辑质量并保持了原始语义内容。
本研究针对MMDiT模型在相似主题输入时的生成问题,提出了一种动态修复模糊潜在表示的方法,设计了三种损失函数,并引入在线重叠检测和起始采样策略,从而显著提升了生成质量和成功率。
完成下面两步后,将自动完成登录并继续当前操作。