本文提出了一种多麦克风技术,用于在混合多说话人和方向性噪声的混响环境中提取目标说话者。实验结果表明,瞬时相对传递函数(RTF)方法优于传统的到达方向(DOA)和频谱嵌入方法。
我们通过它的对偶表示 - 传递函数,设计了一种适用于深度学习应用的状态空间模型,并揭示了一种高度有效的序列并行推理算法,该算法是无状态的,与状态大小的增加相比,不会产生任何显著的内存和计算开销。
该文提出了一种新的密度编码方法,通过基于 Fourier 的压缩来适应底层体渲染过程的传递函数特征,从而减少动态模型中的伪影。同时,通过对训练数据的扩充来放松压缩的周期性假设。该方法在合成和真实场景的评估中表现出有效性。
完成下面两步后,将自动完成登录并继续当前操作。