小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了CleanMel,一个用于去噪和去混响的单通道梅尔谱网络,旨在提升语音质量和自动语音识别(ASR)性能。实验结果表明,该网络在处理噪声和混响录音时显著改善了语音质量和ASR效果。

CleanMel:增强梅尔谱以提高语音质量和自动语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z

本研究提出了一种变分贝叶斯推断框架(VINP),旨在解决混响语音信号的去混响和盲室冲激响应(RIR)识别问题。通过结合深度神经网络预测先验分布,显著提升了自动语音识别(ASR)和盲RIR识别的性能。

VINP:使用神经语音先验的变分贝叶斯推断用于联合ASR有效的语音去混响和盲RIR识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种实时自动语音识别的新方法,结合去混响与降噪技术,利用WPD波束形成优化神经波束形成,显著提升了在不同条件下的语音识别性能。

神经波束形成的运行时适应性:增强鲁棒性语音的去混响与降噪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文提出了一种结合物理和机器学习的新框架,用于分析声学信号。该框架利用贝叶斯推断、神经物理模型和非线性最小二乘法,有效推断室内冲激响应,并介绍了多种去混响和声源分离的方法,展示了在不同声学条件下的优越性能。

基于评分优先的HRTF估计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z
基于3D重建房间的新视角声学合成

本文探讨了结合盲音频录音与3D场景信息进行新视角声学合成的优势。通过2-4个麦克风的录音和场景的3D几何及材料信息,估计场景中的声音。主要挑战包括声源定位、分离和去混响。研究表明,利用3D重建的房间脉冲响应(RIR)显著提高合成质量。模型在Matterport3D-NVAS数据集上表现优异,声源定位准确率接近完美,声源分离和去混响的PSNR和SDR指标优于现有方法。

基于3D重建房间的新视角声学合成

Apple Machine Learning Research
Apple Machine Learning Research · 2024-08-16T00:00:00Z

本文提出了一种结合视觉线索和自监督学习的音频-视觉多通道语音分离与去混响方法。该研究结合扩散模型和音频-视频预训练框架,显著降低了训练时间和计算量,并在多个任务中超越了现有方法的表现。

基于视觉场景驱动扩散的声音匹配与去混响的相互学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码