基于对称视角的冗余感知唇读模型
原文中文,约200字,阅读约需1分钟。发表于: 。本研究针对传统唇读模型未能有效捕捉唇部左右半边之间的不同之处的问题,提出了一种基于对称视角的差异学习策略(DLSV)。通过冗余感知操作(RAO)和自适应交互模块(ACVI)的设计,显著提升了模型的性能,并在LRW和LRW-1000数据集上证明了方法的有效性。
本论文研究了使用自注意力机制的CTC和序列到序列两种模型进行唇语识别,并介绍了新的数据集LRS2-BBC。实验结果表明,该模型在唇语识别方面表现优于以前的相关工作。