小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了一种基于CTC/注意力混合架构的视觉语音识别(VSR)模型,该模型结合音频和视觉模态,特别在噪声环境中表现优异。通过优化设计和数据增强,模型在多个数据集上实现了领先的识别准确率,展示了其在视觉语音识别领域的重要贡献。

增强CTC基础的视觉语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z
AV-CPL:用于音视频语音识别的连续伪标签方法

本文介绍了一种名为AV-CPL的连续伪标签方法,用于音视频语音识别(AVSR)。该方法通过结合标记和未标记视频,持续生成伪标签来训练模型。在LRS3数据集上,AV-CPL显著提升了视觉语音识别(VSR)性能,同时保持了自动语音识别(ASR)和AVSR的实用性。此外,该方法利用未标记的视觉语音数据改善VSR表现。

AV-CPL:用于音视频语音识别的连续伪标签方法

Apple Machine Learning Research
Apple Machine Learning Research · 2024-08-12T00:00:00Z

NPU-ASLP-LiAuto在2023年中国视觉语音识别挑战赛中表现优异,单说话人和多说话人任务的字符错误率分别为34.76%和41.06%,在所有三个跟踪中排名第一。研究采用中间连接主义时间分类模块和双变压器解码器,显著提升了识别准确性。

CNVSRC 2024 年视觉语音识别的 NPU-ASLP 系统描述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

本文探讨了深度学习在视觉语音识别(VSR)中的应用,提出了多种轻量级模型和技术,以提升噪声环境下的识别性能。研究表明,稀疏网络在抗干扰性方面优于密集网络,并在LRS3数据集上取得了先进成果。此外,结合自监督学习和音频知识以补充视觉信息的方法显著提高了识别准确率,尤其在低资源语言和多语种环境中表现突出。

MSRS: 用稀疏掩码优化从零开始训练多模态语音识别模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文探讨了多种基于LSTM的模型在计算机视觉中的应用,包括视频帧预测、图像字幕生成和视觉语音识别。研究表明,这些模型在多个基准数据集上表现优异,展示了LSTM在时空信息处理和自然语言生成中的潜力。

Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本文介绍了新型模型和方法在视觉语音识别、情感分析、步态识别和视频字幕生成等领域的应用,均在相关基准测试中取得了先进性能。这些方法包括多级时空建模、图神经网络和音频记忆结合唇部运动,展示了特征提取和模型适应方面的创新。

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文探讨了语音识别和生成系统的研究进展,重点关注印度语言的ASR模型和视觉语音识别系统的表现。研究表明,离散单元在语音处理中的有效性,以及通过不同技术提高识别准确率的潜力。

Interspeech 2024 离散语音单元挑战中的语音处理技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

RAVEn是一种多模态方法,通过自监督学习结合视觉和听觉语音表征,显著提升了视觉语音识别(VSR)性能。该方法在低资源环境下表现优异,利用少量标记数据和未标记音频-视觉数据,降低了词错误率,并在多个基准测试中取得了最新成果。

BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

本文提出了一种基于LSTM网络的端到端视觉语音识别系统,取得了最先进的分类性能。在OuluVS2数据库上比基准提高了9.7%,在CUAVE数据库上比其他类似方法的系统提高了1.5%。

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上,基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后,词错误率降至35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。

通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-18T00:00:00Z

本研究介绍了我们在2023年中国持续视觉语音识别挑战赛中的系统,使用了中间连接主义时间分类残差模块和双变压器解码器提高准确性。使用汉字作为建模单元,并使用递归神经网络语言模型进行浅层融合。实验结果显示,我们的系统在评估集上的字符错误率为38.09%,相对于基准线减少了21.63%,并获得第二名。

ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-26T00:00:00Z

该论文提出了一种面向低资源语言的强大的视觉语音识别方法,使用Whisper模型进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的VSR性能,并提供了大规模无标注多语言数据库的自动标签。

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z

基于Lip2Vec的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到音频潜在表示,实现文本解码。在LRS3数据集上,该方法实现了26%的错误率(WER),并在VoxCeleb测试集上保持了合理的性能,缩小了口语识别与视觉语音识别之间的性能差距。

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码