BriefGPT - AI 论文速递 ·

无手势标注的手语翻译与检索中的内容与上下文表示学习

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文提出了多种手语识别和翻译的新方法，包括对比视觉-文本转换（CVT-SLR）、交叉检索、GASLT模型和无语言标注的手语翻译框架Sign2GPT。这些方法通过自监督学习和预训练技术，显著提升了手语翻译的性能和准确性，推动了该领域的发展。

🎯

❓

CVT-SLR方案是一种新方法，旨在通过探索视觉和语言模态的预训练知识来改进手语识别效果，实验结果显示其优于现有的单模态和多模态方法。

GASLT模型利用gloss attention和自然语言模型知识，帮助模型更好地理解手语视频，实验结果表明其在多个大型手语数据集上表现优异。

Sign2GPT框架实现了无语言标注的手语翻译，利用大规模预训练视觉和语言模型，通过轻量级适配器显著提升了翻译性能。

通过提出基于条件变分自编码器的CV-SLT框架，引入KL散度促进手语视频和口语文本之间的跨模态对齐，取得了新的最先进结果。

SignCL策略通过自我监督的方式改善特征表示的可区分性，显著减少表示密度，并在多种翻译框架上提高性能。

SignCLIP通过将口语文本和手语视频投影到相同空间中进行预训练，并在不同的下游数据集上评估其文本-视频和视频-文本检索准确性。

🏷️