利用 LLMs 进行对话质量测量
原文中文,约400字,阅读约需1分钟。发表于: 。该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
这项研究调查了职业剧院中人类演员与对话代理合作创作的情况,探索了即兴多方对话的技术能力和限制,并从观众和表演者的经验中提供了见解。观众对于AI驱动的现场娱乐和人机直接互动表达了多样化的期望,而人类演员对此表示热情。公众舆论则凸显了人们对于AI在艺术中的角色的复杂情感。