小红花·文摘

本研究提出了一种新颖的视觉叙述方法，通过多代理通信框架结合话题描述和故事生成，提升故事生成质量。采用多模态模仿学习生成对抗网络（MIL-GAN）建模用户兴趣，解决故事情节度量挑战。同时，回顾了多模态大型语言模型（MLLMs）的发展，分析其在视觉理解和生成任务中的应用，提供全面的技术概述。