序列到序列多模态语音修复

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了基于Transformer的深度学习模型解决音频视觉语音修复问题,实验结果显示该模型优于之前的音频-视觉模型和音频模型。使用AV-HuBERT提取的视觉特征可合成语音。

🎯

关键要点

  • 提出了基于Transformer的深度学习模型解决音频视觉语音修复问题。

  • 模型利用视觉线索提供有关受损音频内容的信息。

  • 实验结果表明该模型优于之前的音频-视觉模型和仅基于音频的基准模型。

  • 使用AV-HuBERT提取的视觉特征可以合成语音。

➡️

继续阅读