该研究探讨了利用预训练技术进行视频语言理解的新趋势,通过迫使视觉语言模型回答问题并同时提供视觉证据,试图确定这些技术的预测在多大程度上基于相关视频内容。研究发现这些模型在证实答案方面表现较弱,提出了通过高斯掩模优化和跨模态学习的视频定位机制来解决这个问题,并发布了数据集和代码。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: