本文介绍了SlowFast-LLaVA-1.5(SF-LLaVA-1.5),一种高效的视频大语言模型,专注于长视频理解。该模型结合了SlowFast机制和联合视频-图像训练,在1B和3B规模下表现出色,满足移动友好模型的需求。实验结果显示,SF-LLaVA-1.5在多个视频任务上表现优异,尤其在长视频理解方面达到了最先进水平。
本文介绍了SlowFast网络在视频识别中的应用,通过结合Slow路径和Fast路径来提高识别精度。同时,研究了SpeedNet模型的自我监督学习、视频加速技术、视频生成模型的优化及Contextualized World Models的引入,显著提升了机器人操作和自动驾驶等领域的样本效率。此外,提出了VSTAR方法以改善长视频生成的动态性,并开发了新数据集LVD-2M以推动长视频生成研究。
MobileVLM是专为移动设备设计的多模式视觉语言模型,性能与更大模型相当。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上的推断速度分别为21.5个token和65.3个token每秒。
SF-Net是一种连续手语识别模型,能够编码信息到三个层次的特征表示中,表现优于先前的方法。
完成下面两步后,将自动完成登录并继续当前操作。