小红花·文摘

本研究提出了一种新学习范式MLLM4WTAL，旨在改善传统弱监督时间动作定位方法的不足。该方法结合多模态大语言模型的语义匹配与重构模块，显著提升了定位性能，展示了在多种模型中的有效性与潜力。

BriefGPT - AI 论文速递 ·

本文提出了一种自监督训练框架，通过多模态聚类捕捉语义相似性，学习共同的多模态嵌入空间。该方法在文本到视频检索和时间动作定位等领域表现优异，超越了现有技术，并展示了在多个数据集上的最新成果。

BriefGPT - AI 论文速递 ·