音频图灵测试:大型语言模型基础的中文文本到语音系统的人类相似性基准评估

📝

内容提要

本研究解决了现有文本到语音(TTS)系统评估方法的主观性和多维设计不足的问题。通过提出音频图灵测试(ATT)和多维中文语料库ATT-Corpus,提供了一种简化的评估协议,使评估者判断声音是否听起来像人类,从而提高了评估的可靠性和有效性。实验结果表明,ATT有效区分模型的各个能力维度,而Auto-ATT在与人类评估的一致性方面表现出色,成为快速可靠的评估工具。

🏷️

标签

➡️

继续阅读