小红花·文摘

该研究提出了一种语言查询音频源分离（LASS）任务，利用LASS-Net神经网络从音频混合物中分离目标源。实验结果表明，LASS-Net在性能和泛化能力上优于基线方法，显示出其在实际应用中的潜力。此外，研究还利用大型语言模型改善了音频与文本的对齐，提升了多种任务的性能。