小红花·文摘

OLViT是一种新颖的视频对话模型，通过维护全局对话状态来解决问题。它学习到最相关的对象和轮次的多模态对话状态表示，并在DVD和SIMMC 2.1数据集上表现出最先进的性能。