多方目标跟踪与 LLMs:预训练、微调和提示工程比较

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究评估了大规模语言模型在多方对话中的能力,记录了29个医院中患者、陪伴者和社交机器人之间的对话,并进行了注释。GPT-3.5-turbo在少样本设置中表现最佳,正确注释了62.32%的目标跟踪对话和69.57%的意图-插槽识别对话。多方对话仍然是大规模语言模型的挑战。

🎯

关键要点

  • 本研究评估了大规模语言模型在多方对话中的能力。
  • 记录了29个医院中患者、陪伴者和社交机器人之间的对话,并进行了注释。
  • 在零样本和少样本设置中比较了微调T5、使用LED创建预训练任务和GPT-3.5-turbo的提示工程技术。
  • 在少样本设置中,GPT-3.5-turbo表现最佳,正确注释了62.32%的目标跟踪对话和69.57%的意图-插槽识别对话。
  • “推理”风格的提示在给出例子注释对话中7%的语料库时效果最好。
  • “故事”风格的提示可能增加模型的虚构成分,在安全关键环境中存在风险。
  • 多方对话仍然是大规模语言模型面临的挑战。
➡️

继续阅读