本研究提出了一种新颖的视觉叙述方法,通过多代理通信框架结合话题描述和故事生成,提升故事生成质量。采用多模态模仿学习生成对抗网络(MIL-GAN)建模用户兴趣,解决故事情节度量挑战。同时,回顾了多模态大型语言模型(MLLMs)的发展,分析其在视觉理解和生成任务中的应用,提供全面的技术概述。
该论文提出了一种多模态模仿学习框架,能够从未标记和非结构化的示范中分段并模仿技能,实现了多任务执行。
完成下面两步后,将自动完成登录并继续当前操作。