小红花·文摘

本文介绍了一种音频视觉语音增强系统，利用基于分数的生成模型和视觉信息。该系统在语音质量和减少生成物品方面有改进效果，并降低了发音困惑。在低信噪比情况下，该系统的单词错误率明显降低。