小红花·文摘

本研究提出了一种新颖的多模态体系结构，结合文本和声学模态进行语调检测，效果优于以往系统。同时，探讨了模态缺失对音视频识别的影响，并提出了减少对音频依赖的新框架。实验验证了方法的有效性和在缺失模态情况下的鲁棒性。