小红花·文摘

PosMLP-Video是一种轻量但强大的视频识别主干，通过使用高效的相对位置编码（RPE）解决图像理解任务中的挑战，扩展了图像PosMLP的位置门控单元到三种时空变种，实现模型简化且性能保持良好。

PosMLP-Video：高效视频识别的时空相对位置编码

BriefGPT - AI 论文速递 ·

DINO-v2是一种无监督学习的预训练方法，具有强大的泛化能力。该方法通过构建多样化的图像数据集、多层级训练、使用居中方法和正则化等技术贡献，实现了优秀的性能。作者还介绍了数据集准备、消除重复数据、自监督图像检索和判别式自监督预训练等步骤。实验结果表明，DINO-v2在多个图像理解任务上超过了其他方法。作者提供了项目主页和开源代码。

DINO-v2笔记

plus studio ·