本研究提出了名为StoryTeller的系统,旨在改善长视频描述中的情节一致性问题。通过音视频角色识别和多模态结合,StoryTeller显著提高了描述的准确性,实验结果显示其准确率比最强基线模型提高了9.5%。
完成下面两步后,将自动完成登录并继续当前操作。