OLViT是一种新颖的视频对话模型,通过维护全局对话状态来解决问题。它学习到最相关的对象和轮次的多模态对话状态表示,并在DVD和SIMMC 2.1数据集上表现出最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。