倾听、交谈与编辑:文本引导下的音景修改以提升听觉体验

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

介绍了多模态声音混合编辑器'LCE',可根据用户文本指令修改声源。系统通过聊天界面和语言模型解释,同时编辑多个声源,提高信号质量。实验证明在不同声源场景中表现稳健。

🎯

关键要点

  • 介绍了一种新颖的多模态声音混合编辑器 'LCE'。

  • LCE 根据用户提供的文本指令修改混合中的每个声源。

  • 通过用户友好的聊天界面同时编辑多个声源,无需将它们分离。

  • 用户输入自由词汇文本提示,由大型语言模型解释以创建语义过滤器。

  • 系统将混合分解为组成部分,应用语义过滤器并重新组装成期望的输出。

  • 开发了一个包含 160 小时数据集的系统,包括 100k 个混合物。

  • 数据集包含语音和各种音频源,以及用于不同编辑任务的文本提示。

  • 实验证明在所有编辑任务中信号质量显著提高。

  • 在不同数量和类型的声源的零-shot 场景中表现稳健。

➡️

继续阅读