基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能:DCASE Challenge 2024 任务 9
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离(LASS)任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明,使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。
本研究提出了一种基于提示工程的文本增强方法,用于语言查询音频源分离任务。实验结果显示,使用增强字幕训练的模型在验证集上表现更好。该研究突出了基于语言模型的字幕增强对推动语言查询音频源分离的有效性。