小红花·文摘

本文介绍了一种基于自上而下加自下而上架构范式的情感识别系统，利用自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域，取得了SOTA结果。该单模只有语音的系统揭示了强大且经过精细调整的自我监督声学特征的可能性，使其达到类似于同时使用语音和文本模态的SOTA多模态系统所达到的结果。