SPiC-E:利用跨实体注意力的 3D 扩散模型中的结构先验
原文中文,约500字,阅读约需1分钟。发表于: 。我们介绍了 SPiC-E—— 一种神经网络,它在 3D 扩散模型中引入了结构引导,扩展了其用于文本条件生成之外的用途。通过引入交叉实体注意机制,我们的框架允许多个实体(特别是成对的输入和引导 3D 形状)通过其内部表示在去噪网络内部进行交互。我们利用这种机制从辅助引导形状中学习面向任务的结构先验知识,展示了我们的方法支持各种应用,包括 3D 风格化、语义形状编辑和文本条件下的抽象转...
扩散模型是一种生成模型,具有文本到图像合成能力,可提高文本图像对齐和模型的交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型,适用于跨领域环境,并可通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC数据集上训练的目标检测模型在Watercolor2K数据集上取得了最佳结果,而分割方法在Cityscapes数据集上训练,在Dark Zurich-val和Nighttime Driving数据集上取得了最佳结果。