通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

OLViT是一种新颖的视频对话模型,通过维护全局对话状态来解决问题。它学习到最相关的对象和轮次的多模态对话状态表示,并在DVD和SIMMC 2.1数据集上表现出最先进的性能。

🎯

关键要点

  • OLViT是一种新颖的视频对话模型,基于多模态注意力的对话状态跟踪器。

  • OLViT通过维护全局对话状态解决视频对话模型面临的空间和时间定位、长期推理和对象跟踪问题。

  • OLViT能够学习最相关的对象和轮次的连续多模态对话状态表示,具有通用性。

  • OLViT可以与大型语言模型(LLM)无缝集成,具有高灵活性。

  • 在DVD和SIMMC 2.1数据集上的评估显示,OLViT实现了最先进的性能。

➡️

继续阅读