本研究提出了一种语义驱动的搜索框架,解决长视频理解中文本查询与视觉元素之间的逻辑关系。通过定义四种逻辑依赖关系,动态更新帧采样分布,实现语义关键帧识别,显著提升了关键帧选择和视频问答任务的性能。
本研究提出了一种基于语义驱动的云边协作方法,用于加速视频推断,以车牌识别为案例研究。该方法可以提高推断速度、吞吐量和减少流量,为智慧城市中的视频分析提供解决方案。
完成下面两步后,将自动完成登录并继续当前操作。