通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
OLViT是一种新颖的视频对话模型,通过维护全局对话状态来解决问题。它学习到最相关的对象和轮次的多模态对话状态表示,并在DVD和SIMMC 2.1数据集上表现出最先进的性能。
🎯
关键要点
-
OLViT是一种新颖的视频对话模型,基于多模态注意力的对话状态跟踪器。
-
OLViT通过维护全局对话状态解决视频对话模型面临的空间和时间定位、长期推理和对象跟踪问题。
-
OLViT能够学习最相关的对象和轮次的连续多模态对话状态表示,具有通用性。
-
OLViT可以与大型语言模型(LLM)无缝集成,具有高灵活性。
-
在DVD和SIMMC 2.1数据集上的评估显示,OLViT实现了最先进的性能。
➡️