签仪制作的新方法:签缝技术

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文介绍了一系列创新方法用于手语自动翻译,包括利用矢量量化和转换器将口语文本转化为动作序列,开发高质量手语视频的方法,以及基于关键点的损失函数的SignGAN模型。这些方法在多个手语数据集上表现优于传统技术,显著提高了翻译的准确性和流畅性。

🎯

关键要点

  • 将连续动作生成问题转化为离散序列生成问题,利用矢量量化和转换器将口语文本翻译为动作序列,BLEU-1 回译得分提高了 72%。
  • 开发了一种新方法制作高质量手语视频,无需使用人类姿势作为中间步骤,模型在两个手语数据集上表现更好。
  • 引入 SignGAN,通过 Mixture Density Network 的 transformer 架构,提出基于关键点的损失函数,实现从口语翻译成骨骼姿势,再生成手势语视频,定性和定量上均优于基线方法。
  • 提出基于音素表示的 T2H 翻译方法,使用 HamNoSys 提取手型作为额外监督,最终在两个数据集上取得 BLEU-4 得分的最佳表现。
  • 提出 Progressive Transformers 架构,将离散文本语言句子翻译成连续 3D 骨架姿势输出,采用数据增强处理方式提高手语翻译性能。
  • 提出使用渐进式变换器实现手语自动翻译,解决现有深度学习方法无法表现手语连续性和完整形态的问题,采用数据增强技术和混合密度网络模型。
  • 利用向量量化从手语姿势序列得出离散表示,支持高级解码方法,证明该方法优于之前的手语生产方法。
  • 提出新型混合动作基元架构,将从口语到手语的翻译过程拆分为独立子任务并进行联合训练,实现较小语料库中的翻译。
  • 基于扩散的 SLP 模型,通过新颖的解剖学感知图神经网络生成动态的 3D 动态符号化身序列,实验证明优于先前方法。
  • 提出基于概率模型的手语分类方法,在阿根廷手语数据集上测试,取得 97% 的准确率。

延伸问答

如何将口语文本转化为手语动作序列?

通过矢量量化和转换器的方法,将口语文本翻译为动作序列,BLEU-1 回译得分提高了 72%。

SignGAN模型的主要创新是什么?

SignGAN通过Mixture Density Network的transformer架构,提出基于关键点的损失函数,实现从口语翻译成骨骼姿势,再生成手势语视频。

新方法制作高质量手语视频的优势是什么?

该方法无需使用人类姿势作为中间步骤,模型在两个手语数据集上表现更好。

Progressive Transformers架构的目的是什么?

该架构旨在将离散文本语言句子翻译成连续的3D骨架姿势输出,以实现自动手语翻译。

如何提高手语翻译的性能?

通过数据增强处理方式和混合密度网络模型来提高手语翻译的性能。

基于概率模型的手语分类方法的准确率是多少?

在阿根廷手语数据集上测试,取得了97%的准确率。

➡️

继续阅读