倾听、交谈与编辑:文本引导下的音景修改以提升听觉体验
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
介绍了多模态声音混合编辑器'LCE',可根据用户文本指令修改声源。系统通过聊天界面和语言模型解释,同时编辑多个声源,提高信号质量。实验证明在不同声源场景中表现稳健。
🎯
关键要点
-
介绍了一种新颖的多模态声音混合编辑器 'LCE'。
-
LCE 根据用户提供的文本指令修改混合中的每个声源。
-
通过用户友好的聊天界面同时编辑多个声源,无需将它们分离。
-
用户输入自由词汇文本提示,由大型语言模型解释以创建语义过滤器。
-
系统将混合分解为组成部分,应用语义过滤器并重新组装成期望的输出。
-
开发了一个包含 160 小时数据集的系统,包括 100k 个混合物。
-
数据集包含语音和各种音频源,以及用于不同编辑任务的文本提示。
-
实验证明在所有编辑任务中信号质量显著提高。
-
在不同数量和类型的声源的零-shot 场景中表现稳健。
🏷️
标签
➡️