PPTC 基准:评估大型语言模型对于 PowerPoint 任务完成的能力

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话,并对此语料库进行了注释。GPT-3.5-turbo在少样本设置中表现最佳。多方对话仍然是大规模语言模型的挑战。

🎯

关键要点

  • 本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话。
  • 对语料库进行了多方目标跟踪和意图-插槽识别的注释。
  • 比较了微调T5、使用LED创建预训练任务的DialogLM和GPT-3.5-turbo的提示工程技术。
  • 在少样本设置中,GPT-3.5-turbo显著优于其他方法。
  • “推理”风格的提示在给出7%例子注释时效果最佳,正确注释了62.32%的目标跟踪和69.57%的意图-插槽识别。
  • “故事”风格的提示可能增加模型的虚构成分,在安全关键环境中存在风险。
  • 多方对话仍然是大规模语言模型面临的挑战。
➡️

继续阅读