Apple Machine Learning Research ·

基于标签变异建模语音情感及分析不同说话者和未见声学条件下的性能

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

自发语音情感数据通常包含感知评分，因评分者意见差异而引入标签不确定性。我们提出使用情感评分的概率密度函数作为目标，替代常用的共识评分，从而在基准评估集上取得更好表现。此外，我们探讨了基于显著性驱动的基础模型选择，以训练多任务语音情感模型，并在情感识别上展示了最先进的性能。

🎯

🔎

自发语音情感数据中的标签不确定性主要源于评分者之间的意见差异。这种不确定性可能导致模型在情感识别上的表现不稳定，因此在模型训练时采用情感评分的概率密度函数作为目标，可以更好地捕捉情感的多样性，提升模型的准确性。

文章指出，单纯关注整体测试集的表现可能会掩盖模型在不同说话者和性别上的泛化能力。因此，在评估情感模型时，跨多个测试集的性能分析显得尤为重要，这有助于更全面地理解模型在实际应用中的表现。

数据偏斜和标签不确定性是模型评估中的重大挑战。文章建议在评估时考虑2-best或3-best假设，而非仅依赖最佳假设，这样可以更全面地反映模型在复杂情境下的表现，提升情感识别的可靠性。

❓

标签不确定性源于评分者意见的差异，导致对同一语音样本的情感评分存在不一致性。

使用情感评分的概率密度函数作为目标，可以在基准评估集上取得比共识评分更好的表现。

通过跨多个测试集的性能评估和对性别、说话者的性能分析，可以有效评估情感模型的实际应用价值。

显著性驱动的基础模型选择有助于训练多任务语音情感模型，并在情感识别上展示最先进的性能。

标签不确定性和数据偏斜对模型评估构成重大挑战，可能导致评估结果不准确。

考虑2-best或3-best假设可以更全面地反映模型在处理标签不确定性时的表现，提供更可靠的评估。

🏷️