BriefGPT - AI 论文速递 ·

通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

本文介绍了视觉对话任务及其研究进展，包括通用测试方法和数据收集协议。研究利用多种编码器和解码器，评估机器与人类的性能差距。新型注意力机制和CLEVR-Dialog数据集推动了多轮推理和视觉指代消解的研究。此外，OLViT模型在视频对话中实现了先进性能，展示了其在多模态对话状态跟踪中的优势。

🎯

视觉对话任务要求AI智能体通过图像、对话历史和问题与人类进行自然对话。
提出了一种基于视觉的通用测试方法和二人聊天数据收集协议。
使用多种编码器（如Latre Fusion、Hierarchical Recurrent Encoder和Memory Network）和解码器，评估机器与人类的性能差距。
引入了Recursive Visual Attention (RvA)机制，解决视觉协同参考问题，实验结果超越现有技术。
开发了CLEVR-Dialog数据集，研究多轮推理和视觉指代消解，评估标准视觉对话模型的性能。
提出基于视觉对话状态跟踪（VDST）的方法，生成关于图片中目标的问题，表现优于先前方法。
基于ViLBERT的方法通过预训练和微调提高了视觉对话的性能。
提出基于对比学习的框架UTC，联合学习判别和生成任务，超越现有方法。
提出Object Language Video Transformer (OLViT)模型，解决视频对话中的空间和时间定位问题，展示了在多个数据集上的先进性能。

❓

视觉对话任务要求AI智能体通过图像、对话历史和问题与人类进行自然对话。

CLEVR-Dialog数据集用于研究视觉对话中的多轮推理和视觉指代消解，评估标准视觉对话模型的性能。

OLViT模型通过维护全局对话状态，解决了空间和时间定位、长期推理和准确对象跟踪等问题，展示了先进性能。

Recursive Visual Attention机制用于解决视觉对话中的视觉协同参考问题，实验结果显示其性能超越现有技术。

通过采用基于检索的评估协议，量化机器和人类在视觉对话任务上的性能差距。

基于ViLBERT的方法通过预训练和微调视觉语言数据集，提高了视觉对话的性能。

🏷️