本文介绍了SpecTokenizer,一种轻量级流式神经音频编解码器,采用压缩谱域建模,显著降低计算量和参数规模。实验结果表明,其在低码率下优于现有模型,适合资源受限环境,具备良好的泛化能力和高效的部署潜力。
VLC 3.0.23 发布,支持多平台,改进音频编解码器和界面,修复多个错误和安全问题。开发者正在为2026年发布的VLC 4.0 做准备,带来新功能和界面。
FlexiCodec是一种新型音频编解码器,支持低于10Hz的超低帧率,旨在提高语义信息的保留。通过动态帧率、ASR引导的语义和可控帧率,FlexiCodec在音频质量和处理速度上表现优异,适用于多种应用场景。
本文提出了一种增强的残差矢量量化(ERVQ)方法,通过优化码本内外来解决码本崩溃问题,从而提升神经音频编解码器的性能。实验结果表明,ERVQ在多种模型和比特率下显著提高了音频质量和泛化能力。
在NAB 2025上,人工智能成为焦点。Telos Alliance展示了其音频自动化平台的新AI功能,旨在提升音频清晰度。Lawo和Riedel等公司展示了AI在广播中的应用,强调基础设施管理和工作流程优化。RTS推出了多语言无线对讲机,Audinate研究数据预测设备故障。MPEG-H音频编解码器展示了音频分离的新功能。
Etere发布了EA6784高级音频编解码器,支持AAC格式,特别是HE-AAC和HE-AAC v2,适用于流媒体和数字广播。该编解码器在音频质量与压缩效率之间取得平衡,支持多种采样率。自1987年成立以来,Etere致力于提供灵活可靠的广播和媒体软件解决方案。
本研究提出了低帧率语音编解码器(LFSC),解决了传统音频编解码器高帧率导致训练和推理缓慢的问题。该编解码器以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明,该编解码器提高了基于大型语言模型的文本到语音推理速度约三倍,同时音质与之前的模型相当。
Meta最近发布了Meta Low Bitrate (MLow)音频编解码器,旨在提供高效、高质量的音频流媒体,适用于低带宽条件下的实时通信。该编解码器在保持较低计算复杂度的同时,实现了Opus的两倍音质。MLow设计轻巧,适用于移动设备和资源受限平台,减少网络拥塞和延迟。
完成下面两步后,将自动完成登录并继续当前操作。