倾听、交谈与编辑:文本引导下的音景修改以提升听觉体验

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

介绍了多模态声音混合编辑器'LCE',可根据用户文本指令修改声源。系统通过聊天界面和语言模型解释,同时编辑多个声源,提高信号质量。实验证明在不同声源场景中表现稳健。

🎯

关键要点

  • 介绍了一种新颖的多模态声音混合编辑器 'LCE'。
  • LCE 根据用户提供的文本指令修改混合中的每个声源。
  • 通过用户友好的聊天界面同时编辑多个声源,无需将它们分离。
  • 用户输入自由词汇文本提示,由大型语言模型解释以创建语义过滤器。
  • 系统将混合分解为组成部分,应用语义过滤器并重新组装成期望的输出。
  • 开发了一个包含 160 小时数据集的系统,包括 100k 个混合物。
  • 数据集包含语音和各种音频源,以及用于不同编辑任务的文本提示。
  • 实验证明在所有编辑任务中信号质量显著提高。
  • 在不同数量和类型的声源的零-shot 场景中表现稳健。
➡️

继续阅读