两种语言的寓言:从口语监督中进行大词汇连续手语识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们引入了CSLR2,一种多任务Transformer模型,可以在手语序列和口语文本之间输出联合嵌入空间,实现大词汇连续手语识别和手语检索。通过构建新的数据集注释,我们证明了同时训练模型进行CSLR和检索任务在性能上是互相有益的。利用大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的技术。
🎯
关键要点
- 引入CSLR2,一种多任务Transformer模型。
- CSLR2可以在手语序列和口语文本之间输出联合嵌入空间。
- 实现大词汇连续手语识别(CSLR)和手语检索。
- 通过构建新的数据集注释,评估CSLR在大词汇环境中的表现。
- 证明同时训练模型进行CSLR和检索任务在性能上是互相有益的。
- 利用大词汇数据集中的弱监督和嘈杂监督,模型在两个任务上优于以往技术。
🏷️
标签
➡️