Demographic Attributes Prediction from Speech Using WavLM Embeddings

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于WavLM特征的分类器,能够从语音中预测说话者的年龄、性别、母语、教育和国家等人口特征。该方法实现了年龄预测的平均绝对误差为4.94,性别分类准确率超过99.81%,显著提高了预测精度。

🎯

关键要点

  • 本研究提出了一种基于WavLM特征的通用分类器。
  • 该分类器能够识别说话者的年龄、性别、母语、教育和国家等人口特征。
  • 通过提取关键声学和语言特征,实现了年龄预测的平均绝对误差为4.94。
  • 性别分类的准确率超过99.81%。
  • 该方法显著提高了预测精度,为语音基础的人口剖析研究奠定了坚实基础。
➡️

继续阅读