孟加拉语中的视觉问题生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,涵盖了各种图像。评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。

🎯

关键要点

  • 提出了一项新颖任务视觉问题生成(VQG),旨在展示图片后提出自然且引人入胜的问题。
  • 提供了三个数据集,涵盖从目标为中心到事件为中心的各种图像。
  • 训练数据比现有最先进的字幕系统提供的数据更抽象。
  • 通过训练和测试几种生成和检索模型来解决VQG任务。
  • 评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。
  • 作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。
➡️

继续阅读