小红花·文摘

本研究提出了名为StoryTeller的系统，旨在改善长视频描述中的情节一致性问题。通过音视频角色识别和多模态结合，StoryTeller显著提高了描述的准确性，实验结果显示其准确率比最强基线模型提高了9.5%。