PPTC 基准:评估大型语言模型对于 PowerPoint 任务完成的能力
原文中文,约400字,阅读约需1分钟。发表于: 。评估大型语言模型(LLM)在使用复杂工具完成多轮、多模式环境中的多模式指令时的能力,通过介绍 PPTC 评估基准和 PPTX-Match 评估系统,发现 LLM 面临多轮会话中的错误累积、PPT 模板处理时长和多模态感知等挑战,其中 GPT-4 在单轮对话测试中表现优异,但在完成整个会话时面临较大挑战。
本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话,并对此语料库进行了注释。GPT-3.5-turbo在少样本设置中表现最佳。多方对话仍然是大规模语言模型的挑战。