小红花·文摘

本文介绍了一种全景叙事的新任务，提出了实验框架和基线方法。研究开发了Pixel-Phrase匹配网络和端到端全景叙事接地网，以提升文本与图像的匹配和语义理解能力。通过细粒度语义奖励和可变形注意力的引入，研究在多个基准测试中表现优异，推动了文本生成图像模型的发展。