视觉问答的多模态常识知识蒸馏
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于图的多模态常识知识蒸馏框架,旨在解决视觉问答中的常识知识挑战。该框架通过图卷积网络整合常识知识、视觉对象和问题,在ScienceQA数据集上取得了优异的表现。
🎯
关键要点
- 本研究提出了一种基于图的多模态常识知识蒸馏框架。
- 该框架旨在解决视觉问答中的常识知识挑战。
- 框架利用图卷积网络整合常识知识、视觉对象和问题。
- 在ScienceQA数据集上,该框架取得了优异的表现。
- 研究解决了现有多模态大语言模型和视觉语言预训练模型的局限性。
➡️