本研究提出了一种新的版权规避攻击方法CEAT2I,针对个性化文本生成图像扩散模型中的数据集版权问题。研究揭示了传统版权验证技术的脆弱性,并通过实验表明CEAT2I能有效规避这些验证,同时保持模型性能,具有重要的实用价值。
香港中文大学等团队研发的Neural LightRig,利用图像扩散模型生成多光照图像,解决了单图法线和材质估计的不确定性。实验结果表明,该方法在法线和材质估计上显著优于现有技术,适用于AR和VR领域,相关资源已开源。
本研究探讨了文本到图像扩散模型中的隐性偏见问题,提出了隐性偏见注入攻击框架(IBI-Attacks),该框架能够在不明显改变图像的情况下引入偏见,从而影响公众信息的传递。
本研究提出了InstantRestore框架,通过单步图像扩散模型和注意力共享机制,实现快速个性化面部恢复。引入的地标注意力损失增强了身份保持,实验结果表明该方法在质量和速度上优于现有技术,适合大规模应用。
本研究提出了GeneMAN框架,旨在从单张实时人类照片中重建高保真3D人类模型。该方法结合多源高质量人类数据,利用文本到图像扩散模型和几何初始化,实现了优质的3D几何和纹理重建,展现出在复杂场景中的良好泛化能力。
本研究提出了一种扩展的图像扩散模型,能够联合训练图像和视频数据,生成高保真度的时空视频。通过改进的有条件采样技术,该模型在文本条件视频生成和视频预测方面取得了先进成果,并展示了高分辨率视频生成和动态三维物体的视频生成的有效性和优越性。
本研究提出了一种扩展的图像扩散模型,用于高保真度视频生成,结合文本条件生成和视频预测。通过轻量级模型和新策略,优化视频质量,显著优于传统生成对抗网络。研究回顾了视频扩散模型在生成、编辑和理解任务中的应用,并探讨了未来发展趋势。
本文介绍了Total-Recon、Sparse3D和MVDiffusion++等新型三维重建方法,这些方法利用图像扩散模型和新颖的神经场景表示,提升了从单视图和稀疏视图生成高质量三维场景的能力,且在多个真实世界数据集上表现优越,解决了传统方法中的歧义和细节缺失问题。
本研究提出了一种扩展的图像扩散模型,利用Masked Conditional Video Diffusion(MCVD)框架生成高保真度视频,支持未来预测和无条件生成。实验结果显示,该方法在视频预测和插值方面表现优异。此外,研究还介绍了内容-动态潜在扩散模型(CMD)和新的视频插值框架(MADiff),显著提升了生成质量和计算效率。
最新的3D生成方法通过图像扩散模型和优化策略取得显著进展。Progressive3D框架能够精确生成复杂语义的3D内容,并引入重叠语义组件抑制技术。Chat-3D系统结合3D表示与对话能力,理解复杂指令。Control3D方法通过手绘草图增强用户控制,Free-Editor技术实现快速多样化的3D场景编辑。TIPEditor框架允许用户通过文本和图像提示进行精确编辑,表现优于现有模型。
本文提出了一种名为Instant3D的高效文本到3D生成方法,利用预训练的文本到图像扩散模型,在消费级显卡上仅需约8毫秒生成高质量、多样化的3D资产,显著提高了生成速度和视觉质量,无需3D训练数据。
该研究提出了DiffSkill框架,通过图像扩散模型和可微分物理模拟,自动生成机器人技能学习任务,减少人类监督。利用少量示范合成丰富数据集,提升机器人在长期任务中的表现。DiffVL方法允许用户通过自然语言描述操控任务,DiffusionBot则生成软体机器人形态,增强任务泛化能力。
本文介绍了一种新颖的图像编辑技术,利用图像扩散模型实现单幅图像的三维操作,如物体旋转和平移,突破了传统三维感知编辑的局限,生成高质量的三维感知图像,并在多个数据集上表现优越。
Sparse3D 是一种新型三维重建方法,利用图像扩散模型提取 2D 先验,提升开放世界对象的重建质量。通过 C-SDS 技术增强细节,实验证明其在 NVS 和几何重建方面优于现有技术,显著提高 3D 重建性能。
本文介绍了PI3D框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的3D形状。通过微调2D扩散模型为3D扩散模型,PI3D具备了3D生成能力和2D模型的泛化能力,并通过分数蒸馏抽样提高采样的3D形状质量。PI3D实现了从图像到三视图生成的迁移,并通过混合训练伪图像和真实图像提高泛化能力。PI3D能够在几秒钟内采样多样性的3D模型,并在几分钟内改进。实验结果证实了PI3D在快速生成一致且高质量的3D模型方面的优势。建议PI3D是文本到3D生成领域的一个有前景的进展。
本论文通过软加权正则化和推理时文本嵌入优化的方法,解决了文本到图像扩散模型无法抑制生成不需要的内容的问题。实验证明该方法适用于像素空间扩散模型和潜空间扩散模型。
SiTH是一种新的流程,将图像扩散模型与3D网格重建相结合,推断未知的人体形状、服装和纹理信息。该方法生成逼真、带纹理的3D人体。
MVDream是一个多视图扩散模型,可以生成几何一致的多视图图像。该模型利用预训练的图像扩散模型和从3D资源渲染的多视图数据集,实现2D扩散的概括性和3D数据的一致性。该模型可以解决现有2D-lifting方法中的3D一致性问题,提高了稳定性。同时,该模型也可以在少量样本设置下进行微调,用于个性化的3D生成。
完成下面两步后,将自动完成登录并继续当前操作。