小红花·文摘 - 小红花技术领袖俱乐部

wavlm-large模型onnx和mnn版本的导出与使用

wavlm-large模型onnx和mnn版本的导出与使用

Yunfeng's Simple Blog ·

本研究提出了一种基于WavLM特征的分类器，能够从语音中预测说话者的年龄、性别、母语、教育和国家等人口特征。该方法实现了年龄预测的平均绝对误差为4.94，性别分类准确率超过99.81%，显著提高了预测精度。

Demographic Attributes Prediction from Speech Using WavLM Embeddings

BriefGPT - AI 论文速递 ·

本文介绍了新预训练模型WavLM，通过联合学习掩蔽语音预测和去噪，提升了语音处理能力。该模型在SUPERB基准测试中表现优异，显著改善了非ASR任务的性能。此外，研究探讨了自监督学习在语音分离和情感识别中的应用，提出了多种优化方法，增强了语音模型的泛化能力和合成效果。

将 WavLM 应用于语音情感识别

BriefGPT - AI 论文速递 ·