BriefGPT - AI 论文速递 -

SPiC-E:利用跨实体注意力的 3D 扩散模型中的结构先验

我们介绍了 SPiC-E—— 一种神经网络,它在 3D 扩散模型中引入了结构引导,扩展了其用于文本条件生成之外的用途。通过引入交叉实体注意机制,我们的框架允许多个实体(特别是成对的输入和引导 3D 形状)通过其内部表示在去噪网络内部进行交互。我们利用这种机制从辅助引导形状中学习面向任务的结构先验知识,展示了我们的方法支持各种应用,包括 3D 风格化、语义形状编辑和文本条件下的抽象转 3D。大量实验证明,SPiC-E 在这些任务上实现了最先进的性能,同时通常比替代方法快得多。重要的是,这一成就没有针对任何特定任务进行改进。

扩散模型是一种生成模型,具有文本到图像合成能力,可提高文本图像对齐和模型的交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型,适用于跨领域环境,并可通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC数据集上训练的目标检测模型在Watercolor2K数据集上取得了最佳结果,而分割方法在Cityscapes数据集上训练,在Dark Zurich-val和Nighttime Driving数据集上取得了最佳结果。

交叉注意力图 扩散模型 文本图像对齐 深度估计 语义分割

相关推荐 去reddit讨论

热榜 Top10

最近读过

  1. SPiC-E:利用跨实体注意力的 3D 扩散模型中的结构先验 - 约读过
  2. Ubuntu过去十年的10个关键时刻 - 约读过
  3. VirtualBox 7.0.10 kernel 6.5.x on ubuntu 22.04 - 约读过
  4. 在 Ubuntu 上的 Nginx 高并发配置实践 - 约读过
  5. Ubuntu 20.04 可视化监控CPU温度工具 - 约读过
  6. PostgreSQL GUI Clients for Ubuntu Linux [2024] - 约读过
  7. [完整参数] 谷歌 Pixel 8 和 Pixel 8 Pro 详细参数已经提前曝光 - 约读过
  8. TinyMonitor - 小巧的服务器状态监视器 - 约读过
  9. T-Clock 桌上小钟 - 约读过
  10. T-Clock 桌上小钟 - 约读过
...
白鲸技术栈
...
天勤数据
...
eolink
...
LigaAI
...
观测云
...
Dify.AI
...
ShowMeBug

推荐或自荐