基于凝视的视觉问答数据集用于澄清模糊的日语问题
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种以注视为基础的视觉问题回答数据集(GazeVQA)和提高准确性的方法。实验结果显示该方法在某些情况下提高了VQA系统在GazeVQA上的表现,并识别了需要改进的典型问题。
🎯
关键要点
- 提出了一种以注视为基础的视觉问题回答数据集(GazeVQA)。
- 利用注视信息澄清有歧义的问题。
- 提出了一种提高GazeVQA任务准确性的方法,基于注视目标估计结果。
- 实验结果显示该方法在某些情况下提高了VQA系统在GazeVQA上的表现。
- 识别了需要改进的GazeVQA任务的一些典型问题。
➡️