本研究提出了一种统一框架,用于盲目估计Ambisonics录音中的频段声学参数,包括混响时间(T60)、直接与混响比(DRR)和清晰度(C50)。新特征SSCV显著提高了估计精度,FOA-Conv3D网络在估计错误上优于现有方法。
本文研究自监督语音表示的特征空间分布,提出了一种新的说话者标准化方法,有效消除语音中的说话者信息。通过主成分分析,探讨不同层如何编码声学参数,并提出基于子空间的学习机制,应用于语言验证和方言识别。同时,研究无监督声学特征在语音识别中的应用,提升元音分类的准确性。
完成下面两步后,将自动完成登录并继续当前操作。