GStreamer 1.28 发布,新增 Vulkan H.264 编码器、AMD HIP 插件和 Wayland 支持。引入 Rust 编写的音频源分离、YOLOX 推理元素及 GIF 解码器,增强分析 API 和 MP4 解复用支持,同时改进日志管理和管道图支持。
GStreamer 项目发布了 GStreamer 1.28 的第一个候选版本,新增 YOLOX 推理元素、音频源分离元素和 GIF 解码器,支持 AAC、无缝循环及 ISO/IEC 23003-5 标准音频,预计将引入 Vulkan H.264 编码器等新特性。
本研究探讨了CEEMDAN算法在音频源分离中的有效性,指出其在分离混合信号方面存在局限性。尽管CEEMDAN能改善语音质量,但对不同语音信号的分离效果仍不理想。
本文介绍了一种基于预训练变分自编码器的扩散模型训练技术,应用于音频源分离和音乐生成。该方法在音频-视觉分离任务中表现优异,能够生成高质量音轨,并有效实现多轨音频中的音源分离,具有广泛应用潜力。
本文介绍了音频源分离模型的研究进展,包括DnR数据集更新、基于心理声学的频率划分和对抗训练的音乐源分离算法。研究表明,多语言数据训练提升了模型的泛化能力,新提出的GASS模型在音频源分离任务中表现优异,尤其在语音和音乐分离方面具有竞争力。
该研究提出了一种语言查询音频源分离(LASS)任务,利用LASS-Net神经网络从音频混合物中分离目标源。实验结果表明,LASS-Net在性能和泛化能力上优于基线方法,显示出其在实际应用中的潜力。此外,研究还利用大型语言模型改善了音频与文本的对齐,提升了多种任务的性能。
完成下面两步后,将自动完成登录并继续当前操作。