Efficient Video-Language Foundation Model Transfer Learning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种多模态时空适配器(MSTA),旨在解决视频动作识别中的灾难性遗忘问题,提升文本与视觉表示的对齐度,减少学习参数,同时保持模型的泛化能力,展示了提高迁移学习效率的潜力。
🎯
关键要点
- 本研究提出了一种多模态时空适配器(MSTA)。
- MSTA旨在解决视频动作识别中的灾难性遗忘问题。
- 研究提升了文本与视觉表示的对齐度。
- MSTA减少了需要学习的参数数量。
- 模型的泛化能力得以保持。
- 研究结果表明MSTA在多个任务上表现卓越。
- MSTA展示了提高视频模型迁移学习效率的潜力。
➡️