离线视频-LLM 现可理解实时视频流:苹果研究人员推出 StreamBridge,实现多轮主动视频理解

Video-LLM 可以一次性处理整个预先录制的视频。然而,像机器人技术和自动驾驶这样的应用需要对在线视觉信息进行因果感知和解读。这种根本性的不匹配表明了当前 Video-LLM ...

Video-LLM 处理离线视频,但在流媒体场景中存在局限。StreamBridge 框架通过结合内存缓冲区和轻量级激活模型,解决了多轮实时理解和主动响应生成的挑战,提升了流媒体视频的理解能力。同时,引入的新数据集 Stream-IT 支持更好的模型微调,展现了在机器人和自动驾驶等领域的应用潜力。

离线视频-LLM 现可理解实时视频流:苹果研究人员推出 StreamBridge,实现多轮主动视频理解
原文中文,约2000字,阅读约需5分钟。发表于:
阅读原文