本研究提出了一种新颖的多模态体系结构,结合文本和声学模态进行语调检测,效果优于以往系统。同时,探讨了模态缺失对音视频识别的影响,并提出了减少对音频依赖的新框架。实验验证了方法的有效性和在缺失模态情况下的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。