小红花·文摘 - 小红花技术领袖俱乐部

新年，新我

新年，新我

DEV Community ·

本文介绍了VIOLET、E-ViLM和LongVLM等视频语言模型的研究进展。这些模型通过新技术和优化算法，在视频问答和文本到视频检索等任务中表现优异，显著提升了效率和性能。此外，研究提出了TemporalBench基准，以评估模型在时间理解方面的能力，揭示了当前模型与人类之间的差距。

xGen-MM-Vid (BLIP-3-Video): 只需32个标记即可表示视频

BriefGPT - AI 论文速递 ·

本文介绍了多种优化 Transformer 模型的方法，包括使用 PatchMerger 模块以减少计算代价、LTMP 方法以降低输入符号数量，以及新的视频语言变换器 VIOLET。此外，研究还提出了高效的视频分解方法和时态扩张视频变换器 TDViT，显著提高了模型的推理速度和性能。

vid-TLDR: Untrained Free Token Merging for Lightweight Video Transformers

BriefGPT - AI 论文速递 ·