小红花·文摘

SlowFast-LLaVA-1.5：一种高效的长视频理解视频大语言模型家族

Apple Machine Learning Research ·

本文介绍了SlowFast网络在视频识别中的应用，通过结合Slow路径和Fast路径来提高识别精度。同时，研究了SpeedNet模型的自我监督学习、视频加速技术、视频生成模型的优化及Contextualized World Models的引入，显著提升了机器人操作和自动驾驶等领域的样本效率。此外，提出了VSTAR方法以改善长视频生成的动态性，并开发了新数据集LVD-2M以推动长视频生成研究。

SlowFast-VGen：面向动作驱动的长视频生成的慢速-快速学习

BriefGPT - AI 论文速递 ·

MobileVLM是专为移动设备设计的多模式视觉语言模型，性能与更大模型相当。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上的推断速度分别为21.5个token和65.3个token每秒。

Slot-VLM：视频 - 语言建模的 SlowFast 插槽

BriefGPT - AI 论文速递 ·

SF-Net是一种连续手语识别模型，能够编码信息到三个层次的特征表示中，表现优于先前的方法。

SlowFast 网络用于连续手语识别

BriefGPT - AI 论文速递 ·