本文介绍了一种基于公共工具的自动音频说明生成流程,构建了包含190万个音频文本对的Auto-ACD数据集,并验证了其在音频语言检索和环境分类任务中的有效性。此外,开发了高质量的对话数据集DailyDialog,手动标记了通信意图和情感信息,以促进对话系统研究。
本文提出了一种基于公共工具的自动音频说明生成流程,并构建了包含190万个音频文本对的高质量数据集Auto-ACD。通过训练模型,验证了该数据集在音频语言检索和环境分类等任务中的有效性,并建立了新的测试集和基准。
完成下面两步后,将自动完成登录并继续当前操作。