Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Speaker Separation and Recognition
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
MISP 2025挑战聚焦于复杂声学条件下的会议转录,提出音视频说话者分离与识别任务。参与者通过结合音频和视频模态,显著提升了系统准确率,展示了多模态信息在语音处理中的潜力。
🎯
关键要点
- MISP 2025挑战聚焦于复杂声学条件下的会议转录。
- 提出了音视频说话者分离、音视频语音识别和音视频分离与识别的任务。
- 参与者通过结合音频和视频模态,显著提升了系统准确率。
- 展示了多模态信息在语音处理中的潜力。
➡️