PPTC-R 基准:评估大型语言模型对 PowerPoint 任务完成的健壮性
原文中文,约400字,阅读约需1分钟。发表于: 。针对用户 PPT 任务指令和软件版本,我们构建了 PowerPoint 任务完成鲁棒性评估基准 (PPTC-R),通过攻击用户指令的句子、语义和多语言级别来评估语言模型对软件版本的鲁棒性。我们发现 GPT-4...
研究人员构建了PowerPoint任务完成鲁棒性评估基准(PPTC-R),评估语言模型对软件版本的鲁棒性。研究发现GPT-4在版本更新和多语言设置中表现出最高的性能和鲁棒性,但在面对多个挑战时,所有语言模型都会失去鲁棒性,导致性能下降。研究人员进一步分析了语言模型的鲁棒性行为和错误原因,为开发更强大的语言模型和代理提供了宝贵的见解。