Pron vs Prompt:大型语言模型是否能够在创意文本写作上挑战世界级小说作家?
原文中文,约400字,阅读约需1分钟。发表于: 。大型语言模型(LLMs)在创意文学写作方面仍远未能挑战顶级作家。通过与一位获奖小说家进行竞赛,该研究对 GPT-4 进行了评估,结果表明单纯扩大语言模型规模不能实现类似的创造性写作技巧。
研究发现,GPT-4在大多数任务上的准确性与人工表现相当,但受到偶然一致性和数据集不平衡的影响。调整这些因素后,GPT-4在数据提取方面达到中等水平,筛选性能则在不同阶段和语言上达到无到中等水平。使用高度可靠的提示筛选全文文献时,GPT-4的性能几乎完美。对于漏掉高度可靠提示的关键研究,对GPT-4进行惩罚可以进一步提高其性能。研究结果表明,在进行系统综述时应谨慎使用LLM,但在可靠提示下完成的特定系统综述任务中,LLM可以与人工表现媲美。