RealmDreamer: 基于文本驱动的带修补和深度扩散的 3D 场景生成
原文中文,约300字,阅读约需1分钟。发表于: 。介绍了一种名为 RealmDreamer 的技术,可以通过文本描述生成通用的正面视图 3D 场景,并且具备高质量和多样性。该技术利用先进的文本到图像生成器初始化 3D 平面,并通过多个视图进行 3D 修补和基于图像的扩散建模,从而生成富含几何结构的场景。最后,通过图像生成器的锐化样本对模型进行微调,而无需视频或多视角数据,同时还可以从单个图像合成 3D 场景。
本研究介绍了一种新颖的任务,即基于文本导向的主题驱动图像修复。通过DreamInpainter方法的两步法,结合主题特征和令牌选择模块,实现了准确的主题复制和主题身份保留。实验证明该方法在视觉质量、身份保护和文本控制方面表现出卓越性能。