本文提出了解决视觉讲故事中上下文信息捕捉和视觉变异性挑战的框架,通过预训练模型的泛化能力,仅训练一个轻量级的视觉-语言映射网络,并引入上下文以增强故事连贯性。实验结果表明,该框架生成的故事在多样性、连贯性和信息量上表现良好,具有高趣味性。
完成下面两步后,将自动完成登录并继续当前操作。