孟加拉语中的视觉问题生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了任务视觉问题生成(VQG),旨在在展示图片后提出自然而引人入胜的问题。提供了三个数据集,涵盖了各种图像。评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。
🎯
关键要点
- 提出了一项新颖任务视觉问题生成(VQG),旨在展示图片后提出自然且引人入胜的问题。
- 提供了三个数据集,涵盖从目标为中心到事件为中心的各种图像。
- 训练数据比现有最先进的字幕系统提供的数据更抽象。
- 通过训练和测试几种生成和检索模型来解决VQG任务。
- 评估结果表明,模型为各种图像提出了合理的问题,但与人类性能的差距很大。
- 作者希望进一步探索将图像与常识和语用知识联系起来的相关研究。
➡️