本研究提出了一种基于自监督学习的行动识别模型,旨在提高分心驾驶行为的检测准确性。通过多摄像头视角和条件后处理,精确定位分心行为及其时间边界,最终在2024 AI City Challenge中获得第六名。
该研究提出了一种新的多模态表示学习方法,开发了SurgVLP模型,利用手术视频和自动生成的文本转录,优化了预训练的视觉-语言模型,显著提升了视频理解任务的性能,尤其在行动识别和文本-视频检索方面表现优越。此外,研究还介绍了基于Transformer的视觉问答系统和无监督的跨模态预训练方法,取得了最新成果。
本研究提出了一种简单但强大的基准线,通过利用预训练的I-VL模型和视频理解任务的能力进行训练。在行动识别、动作定位和文本-视频检索等任务中,实现了与现有方法相当或最新的性能。通过消融研究分析了关键组件和静态图像、视频之间的差距。
该研究提出了一种基准线,利用预训练的I-VL模型进行视频理解任务的最小化训练,并将视频相关任务转化为预训练目标相同的格式。在10个公共基准测试中,实现了与现有方法相当或最新的性能。同时,进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。
该研究提出了一种基准线,利用预训练的I-VL模型进行视频理解任务的最小化训练,并将视频相关任务转化为预训练目标相同的格式。在行动识别、动作定位和文本-视频检索等测试中,实现了与现有方法相当或最新的性能。同时,进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。
完成下面两步后,将自动完成登录并继续当前操作。