本研究提出了一种基于视频的噪声感知自适应加权方法(V-NAW),旨在解决面部表情识别中的标签模糊和类别不平衡问题。该方法通过自适应分配每帧的重要性,显著提升了识别性能。
本文提出了一种改进的噪声感知训练方法,针对嘈杂文本数据和OCR输出,通过序列对序列模型生成实证误差。利用OCR引擎训练的大型平行文本语料库,建立了真实世界噪声序列标注基准。该方法在错误序列标注数据集上优于传统技术,为未来研究提供支持,并开源相关代码和数据。
完成下面两步后,将自动完成登录并继续当前操作。