BriefGPT - AI 论文速递 ·

文本到图像扩散模型中的交叉注意力使推理繁琐

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文提出了一种注意力调节方法，通过优化注意力图与文本提示的对齐，解决扩散模型中对某些令牌过度关注的问题。实验结果表明，该方法在多个数据集上优于其他基准，生成的图像更忠实于文本概念。此外，研究揭示了交叉注意力与记忆现象的关系，并提出了创新方法以检测和减轻记忆现象，确保生成图像质量。

🎯

❓

注意力调节方法通过优化注意力图与文本提示的对齐，解决扩散模型中对某些令牌过度关注的问题，从而提高生成图像的语义逼真度。

实验结果表明，该方法在多个数据集上优于其他基准，生成的图像更忠实于文本概念，且计算开销较低。

研究揭示交叉注意力倾向于不成比例地关注特定标记的嵌入，导致模型对这些标记的过度拟合，从而引发记忆现象。

提出了一种创新方法来检测和减轻记忆现象，确保生成图像质量不受影响，同时不影响模型的训练或推理速度。

研究提出了注意力隔离损失和注意力保留损失，旨在减少概念间的混淆和信息丢失，提高生成图像的质量。

该方法生成的图像更忠实于文本概念，并且在多个数据集上表现优于其他方法，计算效率更高。

🏷️