小红花·文摘

该论文提出了一种基于TV-TREES的多模态蕴涵树生成器，用于解决电视剪辑等复杂多模态内容上的问答问题。实验证实了该方法在全视频剪辑上的零样本性能，在黑盒方法上取得了最先进的可解释性和性能的最佳结合。