本文介绍了一种全景叙事的新任务,提出了实验框架和基线方法。研究开发了Pixel-Phrase匹配网络和端到端全景叙事接地网,以提升文本与图像的匹配和语义理解能力。通过细粒度语义奖励和可变形注意力的引入,研究在多个基准测试中表现优异,推动了文本生成图像模型的发展。
完成下面两步后,将自动完成登录并继续当前操作。