本研究探讨了扩散模型生成文本幻觉的问题,发现其主要源于局部生成偏差。当数据分布的不同维度几乎独立时,去噪网络倾向于依赖相关的局部区域,导致生成文本不符合语法。这一发现为理解其他类型的幻觉提供了重要见解。
我们引入了一种语义面板作为中介来解码文本到图像的过程,用于支持生成器更好地遵循指示。通过将从输入文本解析的视觉概念经由大型语言模型的辅助排列而成的面板注入到去噪网络作为详细的控制信号来补充文本条件,我们的方法 Ranni 在提高预训练的 T2I 生成器的文本可控性方面取得了进展。我们开发了一个实用系统,并展示了其在连续生成和基于聊天的编辑中的潜力。
研究人员提出了Dual3D框架,可在1分钟内生成高质量的3D资产。使用双模态多视图潜在扩散模型和去噪网络实现一致渲染的三面神经表面。另外,提出了双模态切换推理策略,可在10秒内生成高质量的3D资产。实验证明该方法在减少生成时间的同时提供了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。