基于自适应的 Conformer 的连续手语识别与无监督预训练

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们引入了一种多任务Transformer模型CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,实现大词汇连续手语识别和手语检索。通过构建新的数据集注释,证明了同时训练模型进行CSLR和检索任务在性能上互相有益。利用BOBSL和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。

🎯

关键要点

  • 引入了一种多任务Transformer模型CSLR2,能够在手语序列和口语文本之间输出联合嵌入空间。
  • CSLR2实现了大词汇连续手语识别和手语检索。
  • 通过构建新的数据集注释,评估了CSLR在大词汇环境中的表现。
  • 证明了同时训练模型进行CSLR和检索任务在性能上互相有益。
  • 利用BOBSL和英文字幕等大词汇数据集中的弱监督和嘈杂监督,模型在两个任务上明显优于以往的最先进技术。
➡️

继续阅读