ExpCLIP: 通过语义对齐桥接文本和面部表惠

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了E-CLIP框架,通过引入新颖的编码器和对齐模块,实现三种模态之间的知识传递。在微调和少样本设置下,该框架在N-Caltech数据集上提升了性能。E-CLIP还可灵活扩展到事件检索任务。

🎯

关键要点

  • 提出了一种名为 E-CLIP 的框架。

  • E-CLIP 通过新颖的事件编码器、文本编码器和原始图像编码器实现三种模态之间的知识传递。

  • 采用层次三重对比对齐 (HTCA) 模块来优化模态相关性。

  • 在 N-Caltech 数据集上,E-CLIP 在微调和少样本设置下性能分别提升了 3.94% 和 4.62%。

  • E-CLIP 可灵活扩展到事件检索任务。

➡️

继续阅读