本研究评估了大规模语言模型在多方对话中的能力,记录了29个医院中患者、陪伴者和社交机器人之间的对话,并进行了注释。GPT-3.5-turbo在少样本设置中表现最佳,正确注释了62.32%的目标跟踪对话和69.57%的意图-插槽识别对话。多方对话仍然是大规模语言模型的挑战。
完成下面两步后,将自动完成登录并继续当前操作。