SPiC-E：利用跨实体注意力的 3D 扩散模型中的结构先验

我们介绍了 SPiC-E—— 一种神经网络，它在 3D 扩散模型中引入了结构引导，扩展了其用于文本条件生成之外的用途。通过引入交叉实体注意机制，我们的框架允许多个实体（特别是成对的输入和引导 3D 形状）通过其内部表示在去噪网络内部进行交互。我们利用这种机制从辅助引导形状中学习面向任务的结构先验知识，展示了我们的方法支持各种应用，包括 3D 风格化、语义形状编辑和文本条件下的抽象转...

扩散模型是一种生成模型，具有文本到图像合成能力，可提高文本图像对齐和模型的交叉注意力图，从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型，适用于跨领域环境，并可通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC数据集上训练的目标检测模型在Watercolor2K数据集上取得了最佳结果，而分割方法在Cityscapes数据集上训练，在Dark Zurich-val和Nighttime Driving数据集上取得了最佳结果。

交叉注意力图扩散模型文本图像对齐深度估计语义分割