ExpCLIP: 通过语义对齐桥接文本和面部表惠
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了E-CLIP框架,通过引入新颖的编码器和对齐模块,实现三种模态之间的知识传递。在微调和少样本设置下,该框架在N-Caltech数据集上提升了性能。E-CLIP还可灵活扩展到事件检索任务。
🎯
关键要点
-
提出了一种名为 E-CLIP 的框架。
-
E-CLIP 通过新颖的事件编码器、文本编码器和原始图像编码器实现三种模态之间的知识传递。
-
采用层次三重对比对齐 (HTCA) 模块来优化模态相关性。
-
在 N-Caltech 数据集上,E-CLIP 在微调和少样本设置下性能分别提升了 3.94% 和 4.62%。
-
E-CLIP 可灵活扩展到事件检索任务。
➡️