本研究提出了一种实时自动语音识别的新方法,结合去混响与降噪技术,利用WPD波束形成优化神经波束形成,显著提升了在不同条件下的语音识别性能。
本研究提出了一种基于音视频融合的Conformer模型,旨在改善音响事件定位与检测中的距离估计问题。通过ResNet50提取音视频嵌入,性能显著提升,尽管F1分数有所下降,但未来实验仍有改进空间。
本文研究了结合盲音频录音和3D场景信息对新视角声学合成的益处。通过音频录音和包含多个未知声源的场景的3D几何学和材料,估计场景中的任何声音。通过融入从3D重建房间导出的房间脉冲响应(RIRs),可以统一解决声源定位、分离和去混响等任务。在模拟研究中,该方法在源定位、分离和去混响方面取得了较好的结果。
Gamma PS1模拟器最近更新了增强音频功能和多人游戏支持。开发者通过混响和插值效果改善音频,同时添加了多人游戏模拟功能。
该文章介绍了一种利用声音传播原理估计混响环境中声音方向的新方法。该方法通过分析声场经声波分解后的时延和方向性分量的能量信噪比自适应特征,能够在嘈杂和混响的条件下准确估计视线方向。通过真实数据验证了该方法的有效性。
该论文提出了一种无需参考文本信息的联合训练方法,利用预训练的自动语音识别编码器的嵌入差异作为损失,通过改进的排列不变训练(PIT)方法 —— 引导式 PIT(GPIT),在不同度量指标上取得了 6.4% 的词错误率(WER)改善和感知度量指标(如短时客观清晰度)的提升。
研究人员发布了EARS数据集,包含107位说话者的100小时干净无混响的语音数据,涵盖多种讲话风格,并评估了语音增强和去混响方法。还引入了盲测试集用于自动评估。
该论文研究了室内指纹识别,通过分析音频记录以确定录制音频时所在房间的音量和形状。提出了一种双编码器架构,可直接从语音中估算房间参数,通过对比损失函数将语音和声学响应联合嵌入,通过在预训练和微调阶段的训练实现具体的分类任务,并在测试阶段使用嵌入来进行房间形状分类。该方案在模拟声学环境中进行了广泛评估。
该文介绍了一个改进的训练框架,用于训练单声道神经增强模型,提高鲁棒语音识别性能。该框架利用混合不变训练准则,扩展了未配对的干净语音和真实嘈杂数据,提高了从真实嘈杂语音中分离出来的语音质量,并通过处理和未处理信号的混合来缓解处理伪影。实验证明,该方法在单通道 CHiME-3 真实测试集上相对 WER 减少了 16% 到 39%。
完成下面两步后,将自动完成登录并继续当前操作。