小红花·文摘

我们引入了CSLR2，一种多任务Transformer模型，可以在手语序列和口语文本之间输出联合嵌入空间，实现大词汇连续手语识别和手语检索。通过构建新的数据集注释，我们证明了同时训练模型进行CSLR和检索任务在性能上是互相有益的。利用大词汇数据集中的弱监督和嘈杂监督，我们的模型在两个任务上明显优于以往的技术。