小红花·文摘

人类情绪理解对于推动对话技术走向主流至关重要。研究通过在 ACM Multimedia 2023 计算跨语音信息挑战（ComParE）中利用多语种演讲者数据集和多标签回归目标，探讨了不同基础模型的训练方案对于超越语音识别等非语义语音任务的效果。HuBERT-Large 是一种基于自注意力的轻量级序列模型，相较于基准线有 4.6% 的改进。