我们提出了一种将神经声学模型与大型语言模型(LLM)融合的方法,用于连续预测口语对话中的交替和回应位置。实验证明,我们的方法始终优于单模态的基线模型,并通过多任务指令微调策略进一步改进了对话语境的理解。结合LLM和声学模型可以实现更自然和对话式的交互。
完成下面两步后,将自动完成登录并继续当前操作。