本研究提出WavReward模型,解决了口语对话模型评估不足的问题,能够有效衡量对话系统的智商与情商,评估准确率从55.1%提升至91.5%。
本研究提出WavRAG框架,解决了现有生成框架在语音输入处理上的不足,显著提升了口语对话模型的上下文处理能力,并实现了10倍加速,拓展了音频应用领域。
研究人员提出了SD-Eval标准数据集,用于评估和改进大型语言模型在口语对话理解和生成方面的能力。该数据集包含了7,303个话语,总计8.76个小时的语音数据,代表了情感、口音、年龄和背景声音等四个维度。研究人员通过客观和主观评估方法以及基于大型语言模型的指标,证明了使用语音的附加信息可以显著提高生成响应的质量。
我们提出了一种将神经声学模型与大型语言模型(LLM)融合的方法,用于连续预测口语对话中的交替和回应位置。实验证明,我们的方法始终优于单模态的基线模型,并通过多任务指令微调策略进一步改进了对话语境的理解。结合LLM和声学模型可以实现更自然和对话式的交互。
完成下面两步后,将自动完成登录并继续当前操作。