BriefGPT - AI 论文速递 ·

基于姿态的手语外观转换

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了手语翻译和识别技术的进展，包括基于关键点的损失函数、手势视频生成、姿势提取和自我监督学习等方法。这些新技术在手语翻译的准确性和效率上优于传统方法，尤其在低资源手语语言中展现出潜力。

🎯

引入了SignGAN，通过Mixture Density Network (MDN) 的transformer架构，提出了基于关键点的损失函数，实现从口语翻译到手势语视频的生成。
OpenHands库应用NLP中的四个关键点于手语识别，包括姿势提取和自我监督预训练，标准化了6种手语的数据集。
利用SPOTER架构和MediaPipe技术，实现了更高效的手语识别，创建了首个公开的在线手语翻译应用。
提出将HamNoSys词汇符号转换为手语姿势动画的方法，利用Transformer编码器生成动作预测，为手语翻译提供通用解决方案。
通过对姿势估计器的比较，发现关键点规范化和学习姿态嵌入能改善低资源手语语言的结果。
提出了一种新的架构，利用基于Transformer的编码-解码模型，实现无缝上下文单词翻译，提升了拼写识别的性能。
DiffSLVA方法利用预训练的大规模扩散模型进行手语视频匿名化，解决了手势识别的复杂性问题。
提出了一种整合手部骨架特征和面部表情的手语识别网络，提高了手语识别的准确性和鲁棒性。

🔎

本文介绍的手语翻译技术，如SignGAN和SPOTER架构，展示了在低资源手语语言中的应用潜力。这些技术通过关键点的损失函数和自我监督学习，显著提高了手语翻译的准确性和效率，尤其是在数据稀缺的情况下。

尽管新技术在手语识别中表现出色，但仍面临数据集依赖性和复杂性的问题。DiffSLVA方法通过视频匿名化和低级图像特征的结合，提供了一种有效的解决方案，确保了手势识别的准确性和隐私保护。

OpenHands库的建立为手语识别提供了标准化的数据集，涵盖六种不同的手语。这一标准化不仅促进了跨语言的手语识别研究，也为未来的手语翻译应用奠定了基础，提升了研究的可重复性和可靠性。

❓

SignGAN通过基于关键点的损失函数和Mixture Density Network (MDN) 的transformer架构，实现了从口语翻译到手势语视频的生成，定性和定量上优于传统方法。

OpenHands库将NLP中的四个关键点应用于手语识别，包括姿势提取和自我监督预训练，标准化了6种手语的数据集。

通过关键点规范化、遗漏关键点插值和学习姿态嵌入，可以改善低资源手语语言的识别效果。

DiffSLVA方法利用预训练的大规模扩散模型进行手语视频匿名化，解决了手势识别的复杂性问题。

该手语识别网络整合了手部骨架特征和面部表情，通过坐标转换提取更准确的手部形状特征，从而提高了识别的准确性和鲁棒性。

Transformer模型用于实现无缝上下文单词翻译，提升了拼写识别的性能，并通过新的损失项准确预测指拼单词的长度。

🏷️