签仪制作的新方法:签缝技术
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本文介绍了一系列创新方法用于手语自动翻译,包括利用矢量量化和转换器将口语文本转化为动作序列,开发高质量手语视频的方法,以及基于关键点的损失函数的SignGAN模型。这些方法在多个手语数据集上表现优于传统技术,显著提高了翻译的准确性和流畅性。
🎯
关键要点
- 将连续动作生成问题转化为离散序列生成问题,利用矢量量化和转换器将口语文本翻译为动作序列,BLEU-1 回译得分提高了 72%。
- 开发了一种新方法制作高质量手语视频,无需使用人类姿势作为中间步骤,模型在两个手语数据集上表现更好。
- 引入 SignGAN,通过 Mixture Density Network 的 transformer 架构,提出基于关键点的损失函数,实现从口语翻译成骨骼姿势,再生成手势语视频,定性和定量上均优于基线方法。
- 提出基于音素表示的 T2H 翻译方法,使用 HamNoSys 提取手型作为额外监督,最终在两个数据集上取得 BLEU-4 得分的最佳表现。
- 提出 Progressive Transformers 架构,将离散文本语言句子翻译成连续 3D 骨架姿势输出,采用数据增强处理方式提高手语翻译性能。
- 提出使用渐进式变换器实现手语自动翻译,解决现有深度学习方法无法表现手语连续性和完整形态的问题,采用数据增强技术和混合密度网络模型。
- 利用向量量化从手语姿势序列得出离散表示,支持高级解码方法,证明该方法优于之前的手语生产方法。
- 提出新型混合动作基元架构,将从口语到手语的翻译过程拆分为独立子任务并进行联合训练,实现较小语料库中的翻译。
- 基于扩散的 SLP 模型,通过新颖的解剖学感知图神经网络生成动态的 3D 动态符号化身序列,实验证明优于先前方法。
- 提出基于概率模型的手语分类方法,在阿根廷手语数据集上测试,取得 97% 的准确率。
❓
延伸问答
如何将口语文本转化为手语动作序列?
通过矢量量化和转换器的方法,将口语文本翻译为动作序列,BLEU-1 回译得分提高了 72%。
SignGAN模型的主要创新是什么?
SignGAN通过Mixture Density Network的transformer架构,提出基于关键点的损失函数,实现从口语翻译成骨骼姿势,再生成手势语视频。
新方法制作高质量手语视频的优势是什么?
该方法无需使用人类姿势作为中间步骤,模型在两个手语数据集上表现更好。
Progressive Transformers架构的目的是什么?
该架构旨在将离散文本语言句子翻译成连续的3D骨架姿势输出,以实现自动手语翻译。
如何提高手语翻译的性能?
通过数据增强处理方式和混合密度网络模型来提高手语翻译的性能。
基于概率模型的手语分类方法的准确率是多少?
在阿根廷手语数据集上测试,取得了97%的准确率。
➡️