BriefGPT - AI 论文速递 ·

签仪制作的新方法：签缝技术

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了一系列创新方法用于手语自动翻译，包括利用矢量量化和转换器将口语文本转化为动作序列，开发高质量手语视频的方法，以及基于关键点的损失函数的SignGAN模型。这些方法在多个手语数据集上表现优于传统技术，显著提高了翻译的准确性和流畅性。

🎯

关键要点

将连续动作生成问题转化为离散序列生成问题，利用矢量量化和转换器将口语文本翻译为动作序列，BLEU-1 回译得分提高了 72%。
开发了一种新方法制作高质量手语视频，无需使用人类姿势作为中间步骤，模型在两个手语数据集上表现更好。
引入 SignGAN，通过 Mixture Density Network 的 transformer 架构，提出基于关键点的损失函数，实现从口语翻译成骨骼姿势，再生成手势语视频，定性和定量上均优于基线方法。
提出基于音素表示的 T2H 翻译方法，使用 HamNoSys 提取手型作为额外监督，最终在两个数据集上取得 BLEU-4 得分的最佳表现。
提出 Progressive Transformers 架构，将离散文本语言句子翻译成连续 3D 骨架姿势输出，采用数据增强处理方式提高手语翻译性能。
提出使用渐进式变换器实现手语自动翻译，解决现有深度学习方法无法表现手语连续性和完整形态的问题，采用数据增强技术和混合密度网络模型。
利用向量量化从手语姿势序列得出离散表示，支持高级解码方法，证明该方法优于之前的手语生产方法。
提出新型混合动作基元架构，将从口语到手语的翻译过程拆分为独立子任务并进行联合训练，实现较小语料库中的翻译。
基于扩散的 SLP 模型，通过新颖的解剖学感知图神经网络生成动态的 3D 动态符号化身序列，实验证明优于先前方法。
提出基于概率模型的手语分类方法，在阿根廷手语数据集上测试，取得 97% 的准确率。

❓

延伸问答

如何将口语文本转化为手语动作序列？

通过矢量量化和转换器的方法，将口语文本翻译为动作序列，BLEU-1 回译得分提高了 72%。

SignGAN模型的主要创新是什么？

SignGAN通过Mixture Density Network的transformer架构，提出基于关键点的损失函数，实现从口语翻译成骨骼姿势，再生成手势语视频。

新方法制作高质量手语视频的优势是什么？

该方法无需使用人类姿势作为中间步骤，模型在两个手语数据集上表现更好。

Progressive Transformers架构的目的是什么？

该架构旨在将离散文本语言句子翻译成连续的3D骨架姿势输出，以实现自动手语翻译。

如何提高手语翻译的性能？

通过数据增强处理方式和混合密度网络模型来提高手语翻译的性能。

基于概率模型的手语分类方法的准确率是多少？

在阿根廷手语数据集上测试，取得了97%的准确率。

🏷️