VideoAdviser: 多模态迁移学习的视频知识蒸馏

原文约400字，阅读约需1分钟。发表于：。

提出了一种名为 VideoAdviser 的视频知识蒸馏方法，用于实现高效性能的多模块转移学习；通过使用基于 CLIP 的教师模型向基于 RoBERTa 的学生模型提供丰富的多模态知识监督信号，从而在多个挑战性的多模态任务中实现了有效的知识转移。

本文提出了一种一阶段模态蒸馏框架，通过多任务学习将特权知识传递和模态信息融合统一为一个优化过程，以解决基于不完整模态的推断问题。该框架包括模态转换任务的联合适应网络和模态融合任务的交叉翻译网络。实验结果表明，该框架可以克服不完整模态输入的问题，并实现最先进的性能。