我们引入了CSLR2,一种多任务Transformer模型,可以在手语序列和口语文本之间输出联合嵌入空间,实现大词汇连续手语识别和手语检索。通过构建新的数据集注释,我们证明了同时训练模型进行CSLR和检索任务在性能上是互相有益的。利用大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的技术。
完成下面两步后,将自动完成登录并继续当前操作。