小红花·文摘

本研究提出了一种实时自动语音识别的新方法，结合去混响与降噪技术，利用WPD波束形成优化神经波束形成，显著提升了在不同条件下的语音识别性能。

神经波束形成的运行时适应性：增强鲁棒性语音的去混响与降噪

BriefGPT - AI 论文速递 ·

本文探讨了无约束视频中的音频视觉事件定位问题，提出了结合音频引导视觉注意力的双模态残差网络和跨模态距离学习网络。研究表明，联合建模听觉与视觉模型的效果优于独立建模，强调了音频视觉融合的重要性，并提出了有效的音频-视觉事件定位方法。

利用混响和视觉深度线索进行声音事件定位和检测及距离估计

BriefGPT - AI 论文速递 ·

本研究提出了一种结合波束形成和说话人属性的自动语音识别方法，旨在改善远程麦克风会议转录中的噪声和混响问题。通过真实会议数据预训练神经波束形成器，实验结果表明该方法在降低字错误率方面显著优于其他方法，具有实际应用潜力。

Joint Beamforming and Speaker-Attributed Automatic Speech Recognition for Real Distant-Microphone Meeting Transcription

BriefGPT - AI 论文速递 ·

本文介绍了一种利用生成对抗网络（GAN）和无监督算法从混响环境中提取训练音频数据的方法，以提高自动语音识别（ASR）系统的性能。研究提出的新去混响技术结合了3D场景信息和多模态学习，显著改善了音频信号质量和RIR估计，在多种声学任务中表现出色。

无监督盲联合消混响和房间声学估计的扩散模型

BriefGPT - AI 论文速递 ·

本文提出了一种结合物理和机器学习的方法来分析声学信号，主要包括贝叶斯推断、神经物理模型和非线性最小二乘法。该框架在模拟数据上验证了其有效性，特别是在受限环境中的声源定位，F1得分达到0.786。

混响噪声环境中声音方向的极大似然估计

BriefGPT - AI 论文速递 ·

该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法 —— 引导式 PIT（GPIT），在不同度量指标上取得了 6.4% 的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

BriefGPT - AI 论文速递 ·

本文介绍了多个用于训练和测试自动语音识别（ASR）系统的数据集，包括多模态数据集、英语对话数据集和德语数据集。这些数据集旨在提高语音识别模型的性能，解决口音和噪声等问题，并探讨相关的法律和伦理问题。

EARS: 一个用于语音增强和去混响的各向同性全频通话语音数据集的基准测试

BriefGPT - AI 论文速递 ·

该论文研究了室内指纹识别，通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构，可直接从语音中估算房间参数，通过对比损失函数将语音和声学响应联合嵌入，通过在预训练和微调阶段的训练实现具体的分类任务，并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。

RevRIR: 利用对比学习进行联合混响语音和室内冲激响应嵌入，应用于房间形状分类

BriefGPT - AI 论文速递 ·

该文介绍了一个改进的训练框架，用于训练单声道神经增强模型，提高鲁棒语音识别性能。该框架利用混合不变训练准则，扩展了未配对的干净语音和真实嘈杂数据，提高了从真实嘈杂语音中分离出来的语音质量，并通过处理和未处理信号的混合来缓解处理伪影。实验证明，该方法在单通道 CHiME-3 真实测试集上相对 WER 减少了 16% 到 39%。

评估基于学习的语音增强系统在嘈杂和混响环境中的泛化差距

BriefGPT - AI 论文速递 ·