基于自适应的 Conformer 的连续手语识别与无监督预训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们引入了一种多任务Transformer模型CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,实现大词汇连续手语识别和手语检索。通过构建新的数据集注释,证明了同时训练模型进行CSLR和检索任务在性能上互相有益。利用BOBSL和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。
🎯
关键要点
- 引入了一种多任务Transformer模型CSLR2,能够在手语序列和口语文本之间输出联合嵌入空间。
- CSLR2实现了大词汇连续手语识别和手语检索。
- 通过构建新的数据集注释,评估了CSLR在大词汇环境中的表现。
- 证明了同时训练模型进行CSLR和检索任务在性能上互相有益。
- 利用BOBSL和英文字幕等大词汇数据集中的弱监督和嘈杂监督,模型在两个任务上明显优于以往的最先进技术。
➡️