本研究提出了M2S框架,旨在解决生成丰富长篇文本描述的不足,特别是结合视频和音频的描述。M2S框架通过音频、视频和角色识别,展示了在多模态文本生成领域的优越性和良好的可扩展性,具有重要的研究潜力。
本研究探讨了大型视觉语言模型在长视频描述中的局限性,提出了StoryTeller系统,通过音视频角色识别提高描述一致性,实验结果显示准确率提升了9.5%。
本研究针对大型语言模型中的目标劫持问题,提出了一种新颖的伪对话注入攻击方法,利用模型在对话中角色识别的弱点,实验结果显示其效果显著优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。