SEED-Story:利用大型语言模型进行多模式长篇故事生成
原文中文,约500字,阅读约需2分钟。发表于: 。使用多模态大型语言模型(MLLM)提出了 SEED-Story,一种新颖的方法,用于生成扩展的多模态故事。模型基于 MLLM 的强大理解能力,预测文本和视觉标记,并通过适应的视觉解标记器处理视觉标记以生成具有一致的字符和风格的图像。还提出了多模态注意力池机制,以高效的自回归方式生成高达 25 个序列(仅使用 10 个进行训练)的故事。此外,还提供了一种名为 StoryStream...
最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,希望SEED-Bench能为未来的研究提供见解。建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。