小红花·文摘

本文介绍了一种基于CTC/注意力混合架构的视觉语音识别（VSR）模型，该模型结合音频和视觉模态，特别在噪声环境中表现优异。通过优化设计和数据增强，模型在多个数据集上实现了领先的识别准确率，展示了其在视觉语音识别领域的重要贡献。

AV-CPL：用于音视频语音识别的连续伪标签方法

Apple Machine Learning Research ·

NPU-ASLP-LiAuto在2023年中国视觉语音识别挑战赛中表现优异，单说话人和多说话人任务的字符错误率分别为34.76%和41.06%，在所有三个跟踪中排名第一。研究采用中间连接主义时间分类模块和双变压器解码器，显著提升了识别准确性。

CNVSRC 2024 年视觉语音识别的 NPU-ASLP 系统描述

BriefGPT - AI 论文速递 ·

本文探讨了深度学习在视觉语音识别（VSR）中的应用，提出了多种轻量级模型和技术，以提升噪声环境下的识别性能。研究表明，稀疏网络在抗干扰性方面优于密集网络，并在LRS3数据集上取得了先进成果。此外，结合自监督学习和音频知识以补充视觉信息的方法显著提高了识别准确率，尤其在低资源语言和多语种环境中表现突出。

MSRS: 用稀疏掩码优化从零开始训练多模态语音识别模型

BriefGPT - AI 论文速递 ·

本文探讨了多种基于LSTM的模型在计算机视觉中的应用，包括视频帧预测、图像字幕生成和视觉语音识别。研究表明，这些模型在多个基准数据集上表现优异，展示了LSTM在时空信息处理和自然语言生成中的潜力。

Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

BriefGPT - AI 论文速递 ·

本文介绍了新型模型和方法在视觉语音识别、情感分析、步态识别和视频字幕生成等领域的应用，均在相关基准测试中取得了先进性能。这些方法包括多级时空建模、图神经网络和音频记忆结合唇部运动，展示了特征提取和模型适应方面的创新。

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

BriefGPT - AI 论文速递 ·

本文探讨了语音识别和生成系统的研究进展，重点关注印度语言的ASR模型和视觉语音识别系统的表现。研究表明，离散单元在语音处理中的有效性，以及通过不同技术提高识别准确率的潜力。

Interspeech 2024 离散语音单元挑战中的语音处理技术报告

BriefGPT - AI 论文速递 ·

RAVEn是一种多模态方法，通过自监督学习结合视觉和听觉语音表征，显著提升了视觉语音识别（VSR）性能。该方法在低资源环境下表现优异，利用少量标记数据和未标记音频-视觉数据，降低了词错误率，并在多个基准测试中取得了最新成果。

BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

BriefGPT - AI 论文速递 ·

本文提出了一种基于LSTM网络的端到端视觉语音识别系统，取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7％，在CUAVE数据库上比其他类似方法的系统提高了1.5％。

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

BriefGPT - AI 论文速递 ·

该论文提出了一种新颖的资源高效方法，利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识，在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上，基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后，词错误率降至35%（LRS2）和45.7%（LRS3）。该模型可以在几天内在单个GPU上进行训练，并能够在老旧硬件上实时进行端到端的VSR。