一对一对话中通过面部表情检测听力损失
原文中文,约200字,阅读约需1分钟。发表于: 。通过面部表情检测,建立用于识别听力损失的机器学习模型,解决与听力相关的表情变化模拟及年龄偏见的问题,并在真实对话场景中以听力障碍者为对象进行大规模评估,取得了比基准模型更优越的性能。
本论文研究了唇语识别的两种模型:使用自注意力机制的CTC和序列到序列模型,以及唇语识别与音频识别的互补性。同时,介绍了新的数据集LRS2-BBC,并公开发布。实验结果表明,该模型的表现超过了以前的相关工作。
通过面部表情检测,建立用于识别听力损失的机器学习模型,解决与听力相关的表情变化模拟及年龄偏见的问题,并在真实对话场景中以听力障碍者为对象进行大规模评估,取得了比基准模型更优越的性能。
本论文研究了唇语识别的两种模型:使用自注意力机制的CTC和序列到序列模型,以及唇语识别与音频识别的互补性。同时,介绍了新的数据集LRS2-BBC,并公开发布。实验结果表明,该模型的表现超过了以前的相关工作。