小红花·文摘

本研究提出了一种基于自监督学习的行动识别模型，旨在提高分心驾驶行为的检测准确性。通过多摄像头视角和条件后处理，精确定位分心行为及其时间边界，最终在2024 AI City Challenge中获得第六名。

Rethinking Top Probabilities from Multi-View Perspectives for Localizing Distracted Driver Behavior

BriefGPT - AI 论文速递 ·

该研究提出了一种新的多模态表示学习方法，开发了SurgVLP模型，利用手术视频和自动生成的文本转录，优化了预训练的视觉-语言模型，显著提升了视频理解任务的性能，尤其在行动识别和文本-视频检索方面表现优越。此外，研究还介绍了基于Transformer的视觉问答系统和无监督的跨模态预训练方法，取得了最新成果。

HecVL：零样本手术阶段识别的分层视频语言预训练

BriefGPT - AI 论文速递 ·

本研究提出了一种简单但强大的基准线，通过利用预训练的I-VL模型和视频理解任务的能力进行训练。在行动识别、动作定位和文本-视频检索等任务中，实现了与现有方法相当或最新的性能。通过消融研究分析了关键组件和静态图像、视频之间的差距。

MotionZero: 利用运动先验进行零样本文本到视频生成

BriefGPT - AI 论文速递 ·

该研究提出了一种基准线，利用预训练的I-VL模型进行视频理解任务的最小化训练，并将视频相关任务转化为预训练目标相同的格式。在10个公共基准测试中，实现了与现有方法相当或最新的性能。同时，进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。

通过高效的后预训练来获取视频基础模型

BriefGPT - AI 论文速递 ·

该研究提出了一种基准线，利用预训练的I-VL模型进行视频理解任务的最小化训练，并将视频相关任务转化为预训练目标相同的格式。在行动识别、动作定位和文本-视频检索等测试中，实现了与现有方法相当或最新的性能。同时，进行了广泛的消融研究以分析关键组件以及与静态图像和视频之间的差距。

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

BriefGPT - AI 论文速递 ·

ZeroI2V：从图像到视频的零成本预训练 Transformer 适应

BriefGPT - AI 论文速递 ·