增强多模态理解的以数据为中心的改进:应用于口语对话建模
📝
内容提要
本研究针对当前多模态语音建模中的不足,提出了一种数据中心的定制化方法以提高口语对话的理解能力。通过引入一种新颖的多任务学习范式,该方法有效地利用少量语音数据,实现了在Spoken-SQuAD基准上的最佳性能,并建立了一个稳健高效的音频中心对话建模框架。此外,研究中还推出了ASK-QA,这是首个涉及含糊用户请求和动态评估输入的多轮口语对话数据集。
🏷️
标签
➡️