小红花·文摘

本研究评估了大规模语言模型在多方对话中的能力，记录了29个医院中患者、陪伴者和社交机器人之间的对话，并进行了注释。GPT-3.5-turbo在少样本设置中表现最佳，正确注释了62.32%的目标跟踪对话和69.57%的意图-插槽识别对话。多方对话仍然是大规模语言模型的挑战。