本研究提出了一种结合大型语言模型和语音活动投影的多模态集成方法,以提高对话中发言者转交话语权的预测准确性和效率。研究结果表明,该方法的预测能力更强。
本研究解决了对话中短暂背channel表达预测不准的问题,提出了一种实时连续预测方法。通过微调语音活动模型,在不平衡数据集上进行帧级预测,实验结果优于基准方法,推动了更人性化的对话系统发展。
完成下面两步后,将自动完成登录并继续当前操作。