该论文提出了一种基于TV-TREES的多模态蕴涵树生成器,用于解决电视剪辑等复杂多模态内容上的问答问题。实验证实了该方法在全视频剪辑上的零样本性能,在黑盒方法上取得了最先进的可解释性和性能的最佳结合。
完成下面两步后,将自动完成登录并继续当前操作。