PPTC 基准:评估大型语言模型对于 PowerPoint 任务完成的能力
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话,并对此语料库进行了注释。GPT-3.5-turbo在少样本设置中表现最佳。多方对话仍然是大规模语言模型的挑战。
🎯
关键要点
- 本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话。
- 对语料库进行了多方目标跟踪和意图-插槽识别的注释。
- 比较了微调T5、使用LED创建预训练任务的DialogLM和GPT-3.5-turbo的提示工程技术。
- 在少样本设置中,GPT-3.5-turbo显著优于其他方法。
- “推理”风格的提示在给出7%例子注释时效果最佳,正确注释了62.32%的目标跟踪和69.57%的意图-插槽识别。
- “故事”风格的提示可能增加模型的虚构成分,在安全关键环境中存在风险。
- 多方对话仍然是大规模语言模型面临的挑战。
🏷️
标签
➡️