本研究提出了一种基于去噪扩散概率模型(DDPM)的房间脉冲响应(RIR)插值方法,旨在估算未测量位置的RIR。该方法在不同麦克风阵列上有效重建缺失的RIR,显著提高插值精度。
本文探讨了结合盲音频录音与3D场景信息进行新视角声学合成的优势。通过多麦克风录音和3D几何信息,解决了声源定位、分离和去混响等问题。研究表明,融入房间脉冲响应(RIRs)显著提升合成质量,模型在Matterport3D-NVAS数据集上表现优异,源定位准确,PSNR和SDR指标均达到较高水平。
该论文提出了一种基于扩散模型的无监督方法,用于去混响和估计房间脉冲响应。通过在频率子带上使用指数衰减滤波器参数化混响,并沿反向扩散轨迹迭代估计参数。该方法在无先验信息下,在各种声学场景中表现优异,优于以往基准,并对未知声学条件更具鲁棒性。
该研究探究了结合盲音频录音和3D场景信息对新视角声学合成的益处。研究确定了新视角声学合成的主要挑战,并证明了融入从3D重建房间导出的房间脉冲响应(RIRs)使得相同的网络能够统一解决这些任务。在Matterport3D-NVAS数据集上的模拟研究中,该方法优于现有方法,证明了其在利用3D视觉信息方面的有效性。
本文介绍了一种集成算法,用于生成能够欺骗自动语音识别系统的音频对抗样本。该算法使用心理声学模型和房间脉冲响应,在模拟环境和真实无线环境中评估鲁棒性,并在人类研究中评估可感知性。
本文介绍了一种生成音频对抗样本的集成算法,用于欺骗自动语音识别系统。该算法使用心理声学模型和房间脉冲响应,在模拟环境和真实无线环境中评估。结果表明,该算法在考虑心理声学效果或结合鲁棒性时,信噪比和人类感知研究都有所改善,但错误率有所增加。
完成下面两步后,将自动完成登录并继续当前操作。