本研究探讨了大型视觉语言模型在长视频描述中的局限性,提出了StoryTeller系统,通过音视频角色识别提高描述一致性,实验结果显示准确率提升了9.5%。
完成下面两步后,将自动完成登录并继续当前操作。