本研究提出了一种新的听觉感知导向的MOS预测模型(APG-MOS),旨在改善自动语音质量评估中的主观感知模型不足。该模型结合生物听觉机制与语义分析,提高了与人类判断的一致性,实验结果表明其优于现有模型。
本研究提出了QualiSpeech数据集,以解决语音质量评估中的注释不足问题。该数据集涵盖11个关键方面,并提供自然语言反馈。实验结果表明,经过微调的听觉大语言模型能够有效提升质量评估的准确性和可靠性。
主观语音质量评估(SSQA)面临模型推广的挑战,现有模型在不同领域表现不佳。为此,研究者提出了MOS-Bench基准和SHEET工具包,以增强模型的泛化能力和评估一致性。这些工具结合多数据集和新评估指标,推动SSQA研究进展,提高自动语音质量评估的有效性。
完成下面两步后,将自动完成登录并继续当前操作。