国际语音会议Interspeech 2026将于2026年9月在悉尼举行,期间将举办音频编码器能力挑战赛(AECC)。比赛聚焦音频编码器在复杂场景下的表现,参赛者需提交预训练模型,主办方提供评估系统。参赛者可使用公开数据集,报名截止日期为2026年1月25日。
小米的MiLM Plus提出了一种轻量级的语音增强方法,利用预训练音频模型提取特征,通过音频编码器和降噪编码器生成清晰语音,性能优于传统模型,计算效率高。实验结果显示,该系统在语音质量和说话人保真度上具有显著优势。
音频编码器在多模态大模型中至关重要。ICME 2025音频编码器挑战赛吸引了多家知名企业参与,火山引擎凭借其技术团队在多个任务中获胜,展示了强大的音频特征提取能力,推动了音频表征的进步。
本研究提出了一种轻量级音频编码器SQCodec,采用单一量化器。通过简化卷积网络和局部Transformer模块,SQCodec在保持高音质的同时显著降低了模型复杂度,提升了灵活性,展现出良好的应用潜力。
该研究提出了一种基于文本的音频检索系统,使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中表现优于最新技术,提高了5.6个百分点的mAP@10。
WhisperKit是一个开源项目,旨在赋能开发者和企业在用户设备上部署商业级别的计算负载。它提供了Swift包、示例App和Python工具,以实现Whisper推理功能。该项目的目标是在苹果硅芯片上实现最低延迟和最高吞吐量。通过优化音频编码器和文本解码器,WhisperKit在iPhone和Mac上实现了速度提升。计划在稳定版本发布前引入更多功能和改进。
本研究使用麦克风记录的信号来确定用户是否与虚拟助手交流。通过将语音识别系统和音频编码器的信号结合为大型语言模型的输入特征,实现了这一目标。使用低秩适应和前缀调整的组合进行数据训练,结果显示多模式方法的错误率更低(EER)。
该研究提出了一种基于文本的音频检索系统,使用自注意力机制的音频编码器和附加的人工生成和合成数据集。该系统在2023年的DCASE挑战中排名第一,在ClothoV2基准测试中的表现优于当前的最新技术,提高了5.6个百分点的mAP@10。
完成下面两步后,将自动完成登录并继续当前操作。