可解释的嵌入式技术用于即时视频搜索
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该论文提出了一种新型的Transformer模型,通过注意力机制将文本和视频显式分离,以寻找识别特征。初步结果表明,该方法在指标上超过了当前最先进的方法。
🎯
关键要点
-
该论文提出了一种新型的Transformer模型。
-
模型通过注意力机制将文本和视频显式分离。
-
研究关注三种角色的内部及其之间的相关性。
-
旨在不同级别上寻找识别特征。
-
初步结果显示该方法在所有指标上超过了当前最先进的方法。
-
在两个指标上也超过了两种最先进的方法。
🏷️