BriefGPT - AI 论文速递 ·

vid-TLDR: Untrained Free Token Merging for Lightweight Video Transformers

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文介绍了多种优化 Transformer 模型的方法，包括使用 PatchMerger 模块以减少计算代价、LTMP 方法以降低输入符号数量，以及新的视频语言变换器 VIOLET。此外，研究还提出了高效的视频分解方法和时态扩张视频变换器 TDViT，显著提高了模型的推理速度和性能。

🎯

❓

PatchMerger 模块通过缩减网络处理的补丁或令牌数量，实现了显著的加速，而不影响性能。

LTMP 方法通过动态合并和修剪符号，降低输入符号数量，同时保持高准确性，速度比先前方法快一个数量级以上。

VIOLET 采用 Masked Visual-token Modeling 进行视频建模，显式建模视频输入，取得了多项视频问答和文本到视频检索任务的最佳性能。

TDViT 通过层次化的变换器块提取时空表示，有效缓解时态冗余的影响，模拟长程动态。

该方法通过设计良好的分词器，将视觉和时间信息离散化为少量标记，支持大规模生成式预训练。

通过快速无需训练的压缩框架和局部-全局令牌合并方法，训练时间比现有方法节省两个数量级。

🏷️