MISP 2025挑战聚焦于复杂声学条件下的会议转录,提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态,显著提升了系统准确率,展示了多模态信息在语音处理中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。