Domain Adaptation of Visual Language Models for Football Video Understanding

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种利用大规模足球数据集和大型语言模型进行微调的方法,以解决视觉语言模型在足球领域转移学习能力不足的问题,从而显著提高视觉问答和动作分类的准确率。

🎯

关键要点

  • 本研究提出了一种利用大规模足球数据集和大型语言模型进行微调的方法。
  • 研究解决了视觉语言模型在足球领域转移学习能力不足的问题。
  • 通过课程学习方法对一般领域的视觉语言模型进行迭代微调。
  • 最终模型在足球特定任务中显示出显著提升,视觉问答任务准确率提升37.5%。
  • 足球动作分类准确率从11.8%提升到63.5%。
➡️

继续阅读