研究团队创建了Diff-SSL-G-COMP数据集,包含19,500个音频压缩示例,采用创新的数据生成方法,提升了音频压缩建模性能,帮助计算机更好地模拟音频压缩器。
开源音频压缩格式WavPack发布5.8版本,新增多线程支持,提升了编码和解码性能,解决了低比特率和高采样率下的量化噪声问题,并优化了DNS算法。
团结引擎1.4.0发布,优化小游戏性能,增强图形渲染,支持多平台构建,改进音频压缩,推出虚拟阴影贴图,提升开发体验与引擎稳定性。
本文介绍了FlowMAC,这是一种创新的神经音频编解码器,专注于在低比特率下实现高质量音频压缩。它首次将条件流匹配用于音频编码,实现高效训练。在3 kbps下,FlowMAC的音质可媲美更高比特率的编解码器,并支持在复杂度与质量之间灵活平衡,可在CPU上实时运行。
神经音频编解码器通过将音频信号转换为离散标记来提高压缩率,但难以区分音频域。为解决此问题,研究小组推出了SD-Codec,结合源分离和音频编码,提升音频再合成质量。实验显示,SD-Codec在源分离和重建方面表现优异。
本研究提出了低帧率语音编解码器(LFSC),解决了传统音频编解码器高帧率导致训练和推理缓慢的问题。该编解码器以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明,该编解码器提高了基于大型语言模型的文本到语音推理速度约三倍,同时音质与之前的模型相当。
完成下面两步后,将自动完成登录并继续当前操作。