XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知
基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。
本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。
BriefGPT - AI 论文速递 -
基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。
本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。
热榜 Top10
标签 Top100
全部ai 语言模型 神经网络 linux llm 开源 微软 .net python 数据集 人工智能 google 算法 apple 扩散模型 安全 机器学习 苹果 java 深度学习 android 游戏 rust postgresql 建模 机器人 漏洞 谷歌 ios openai windows mysql c# 开发者 大模型 spring api 函数 gpt github 教程 microsoft chatgpt 卷积 windows 11 数据库 nvidia web 内存 mongodb iphone 强化学习 浏览器 cloud security 插件 docker sql 编码器 基准测试 wordpress 大语言模型 程序员 黑客 欧盟 mac 联邦学习 总结 流量 入门 无监督 postgres 解决方案 c++ sora 点云 generative ai 一致性 工程师 网络安全 spring boot redis pdf 视图 硬件 swift 接口 前端 重建 单片机 多智能体 visual studio 容器 git 面试 cve kubernetes ceo 马斯克 源码
赞助商
我也要赞助推荐或自荐