BriefGPT - AI 论文速递 ·

动态提示冻结文本至图像扩散模型以实现全景叙事对接

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文介绍了一种全景叙事的新任务，提出了实验框架和基线方法。研究开发了Pixel-Phrase匹配网络和端到端全景叙事接地网，以提升文本与图像的匹配和语义理解能力。通过细粒度语义奖励和可变形注意力的引入，研究在多个基准测试中表现优异，推动了文本生成图像模型的发展。

🎯

❓

全景叙事基础任务是一种新型任务，旨在通过新的实验框架和基线方法提升文本与图像的匹配和语义理解能力。

PPMN通过密集标注的像素-短语对进行训练，直接匹配每个短语与其对应的像素，以输出全景分割。

FineRewards方法通过引入细粒度语义奖励，提升文本与图像的匹配，实现模态对齐，表现优于其他基准奖励函数。

DRMN框架通过引入可变形注意力，融入不同尺度像素的重要上下文信息，从而提高文本短语与图像像素之间的匹配结果。

半监督全景叙事接地方案利用少量带标签的图文对和大量无标签对，通过质量基配损失调整方法来提高性能。

ELLA适配器将文本到图像扩散模型与大型语言模型结合，实现文本对齐，帮助扩散模型解释复杂的长文本提示。

🏷️