BriefGPT - AI 论文速递 ·

PPTC 基准：评估大型语言模型对于 PowerPoint 任务完成的能力

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话，并对此语料库进行了注释。GPT-3.5-turbo在少样本设置中表现最佳。多方对话仍然是大规模语言模型的挑战。

🎯

关键要点

本研究记录了医院中患者、陪伴者和社交机器人之间的29个多方对话。
对语料库进行了多方目标跟踪和意图-插槽识别的注释。
比较了微调T5、使用LED创建预训练任务的DialogLM和GPT-3.5-turbo的提示工程技术。
在少样本设置中，GPT-3.5-turbo显著优于其他方法。
“推理”风格的提示在给出7%例子注释时效果最佳，正确注释了62.32%的目标跟踪和69.57%的意图-插槽识别。
“故事”风格的提示可能增加模型的虚构成分，在安全关键环境中存在风险。
多方对话仍然是大规模语言模型面临的挑战。

🏷️

标签

GPT-3.5-turbo powerpoint 多方对话大型语言模型大规模语言模型少样本设置语料库

➡️

继续阅读

思瑞浦打造覆盖高精度电压基准产品的完整产品矩阵
（全球TMT 2026年07月21日讯）思瑞浦依托在高性能模拟芯片领域的持续创新，打造覆盖高精度电压基准产品的 […]
WAIC重磅成果｜仪电智算云在国家人工智能应用中试基地建设中展现全栈服务能力
阿里Qoder上线全新安全能力，为每位用户配备一位专属安全工程师
Announcing the Public Preview of Discover and Domains, powered by Unity Catalog
Today, we're announcing the Public Preview of Domains and the Discover pa...
Peak Design’s modular Field Bracket has a finder tag built-in
I am a very clumsy man. So clumsy, that I have AirTags hanging off practicall...
Nearly every Kindle is steeply discounted at Best Buy
If you’ve been thinking about picking up a Kindle before school starts, or fo...