SPiC-E:利用跨实体注意力的 3D 扩散模型中的结构先验
扩散模型是一种生成模型,具有文本到图像合成能力,可提高文本图像对齐和模型的交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型,适用于跨领域环境,并可通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC数据集上训练的目标检测模型在Watercolor2K数据集上取得了最佳结果,而分割方法在Cityscapes数据集上训练,在Dark Zurich-val和Nighttime Driving数据集上取得了最佳结果。
原文中文,约500字,阅读约需1分钟。