小红花·文摘

MISP 2025挑战聚焦于复杂声学条件下的会议转录，提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态，显著提升了系统准确率，展示了多模态信息在语音处理中的潜力。