BriefGPT - AI 论文速递 ·

基于姿态引导的精细化手语视频生成

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

本文介绍了一种新型手语视频片段表示法，利用时空语义金字塔网络(TSPNet)进行手势识别和特征学习，优化手语翻译过程。研究展示了基于关键点的损失函数、混合动作基元架构和语言学先验等方法，显著提升了手语翻译性能，并通过自监督学习和大型语言模型提出了高效的手语表示学习方法，推动了手语翻译技术的发展。

🎯

提出了一种基于多种时间粒度的新型手语视频片段表示法，利用时空语义金字塔网络(TSPNet)进行手势识别和特征学习。
引入了基于关键点的损失函数，通过Mixture Density Network (MDN)的transformer架构实现从口语翻译成骨骼姿势，再生成连续的手势语视频。
提出了一种新型混合动作基元架构，将从口语到手语的翻译过程拆分为独立子任务并进行联合训练。
利用Transformer编码器逐渐生成动作预测的方法，将HamNoSys词汇符号转换为手语姿势动画。
SGNify通过引入新颖语言学先验，全自动捕获手势、面部表情和身体动作，提高了对技术和在线媒体的获取能力。
提出了一种基于曲率和挠率的新方法，将三维运动建模为视频中关键帧的选择依据，证明了其实用性与可行性。
开发了一种新方法制作高质量手语视频，无需使用人类姿势作为中间步骤，模型在两个手语数据集上表现更好。
提出了一种有效的学习手语表示的方法，专注于手势视频中的脸部、手部和身体姿态，通过自监督学习实现手语翻译的新突破。
SignCLIP通过重新利用CLIP将口语文本和手语视频投影到相同空间中，旨在处理手语，具有显著的文本-视频检索准确性。
提出了一种新的基于空间和运动特征的手语翻译框架（SpaMo），在多个数据集上实现了最先进的翻译性能。

❓

TSPNet用于手势识别和特征学习，优化手语翻译过程。

通过Mixture Density Network (MDN)的transformer架构和基于关键点的损失函数，将口语翻译成骨骼姿势，再生成手势视频。

SGNify引入新颖语言学先验，全自动捕获手势、面部表情和身体动作，提高了对技术和在线媒体的获取能力。

新方法无需使用人类姿势作为中间步骤，直接生成高质量手语视频，且在多个数据集上表现更好。

SignCLIP将口语文本和手语视频投影到相同空间中，旨在处理手语，具有显著的文本-视频检索准确性。

SpaMo框架通过提取手语的空间和运动特征，利用大型语言模型处理，实现了最先进的翻译性能。

🏷️