本研究提出了一种基于去噪扩散概率模型(DDPM)的房间脉冲响应(RIR)插值方法,旨在估算未测量位置的RIR。该方法在不同麦克风阵列上有效重建缺失的RIR,显著提高插值精度。
该研究探究了结合盲音频录音和3D场景信息对新视角声学合成的益处。研究确定了新视角声学合成的主要挑战,并证明了融入从3D重建房间导出的房间脉冲响应(RIRs)使得相同的网络能够统一解决这些任务。在Matterport3D-NVAS数据集上的模拟研究中,该方法优于现有方法,证明了其在利用3D视觉信息方面的有效性。
本文介绍了一种集成算法,用于生成能够欺骗自动语音识别系统的音频对抗样本。该算法使用心理声学模型和房间脉冲响应,在模拟环境和真实无线环境中评估鲁棒性,并在人类研究中评估可感知性。
本文介绍了一种生成音频对抗样本的集成算法,用于欺骗自动语音识别系统。该算法使用心理声学模型和房间脉冲响应,在模拟环境和真实无线环境中评估。结果表明,该算法在考虑心理声学效果或结合鲁棒性时,信噪比和人类感知研究都有所改善,但错误率有所增加。
完成下面两步后,将自动完成登录并继续当前操作。