本研究提出了一种新颖的视觉叙述方法,通过多代理通信框架结合话题描述和故事生成,提升故事生成质量。采用多模态模仿学习生成对抗网络(MIL-GAN)建模用户兴趣,解决故事情节度量挑战。同时,回顾了多模态大型语言模型(MLLMs)的发展,分析其在视觉理解和生成任务中的应用,提供全面的技术概述。
完成下面两步后,将自动完成登录并继续当前操作。