该文章介绍了一种基于图像流的多模态人类水平故事生成方法,通过利用常识知识和文本推理架构,增强实际内容表达并保持序列一致性。经过人工评估,该方法在故事性能方面超过了之前的最佳方法,消融实验也验证了序列数据增强和SQ-Adapter的有效性。
完成下面两步后,将自动完成登录并继续当前操作。