本研究提出了SoccerNet-v3D和ISSIA-3D两个增强且可扩展的数据集,旨在解决体育视频分析中3D场景理解数据集不足的问题,提升空间和时间分析能力。
该研究提出了一种轻量级深度学习模型,能够自动检测体育视频中的精彩片段,显著减少人工干预。通过结合音频和视频源,模型实现了高准确率,提高了处理效率和鲁棒性。
本研究提出了体育视频评论生成的新任务及基准SCBench,评估视频大型语言模型的细粒度时序视觉能力。结果显示,InternVL-Chat-2在该基准上表现最佳,为复杂视觉理解任务提供了新视角。
完成下面两步后,将自动完成登录并继续当前操作。