漫画密探:漫画自动生成转录 原文约300字,阅读约需1分钟。发表于:2024-01-18T00:00:00Z。 以 Magi 模型解决日本漫画的视觉障碍问题,实现阅读顺序的检测和对话转录。 本研究提出了多模态漫画补充任务,设计了基于大规模语言模型的方法MCoT来挖掘漫画中的事件知识,并建立了包含两种语言的M2C基准数据集。同时,提出了基线方法FVP-M^2,通过视觉提示支持漫画补充任务。实验结果表明FVP-M^2方法在多模态漫画补充任务中有效。 FVP-M^2方法 M2C基准数据集 事件知识 多模态漫画补充任务 大规模语言模型