AIxiv专栏探讨了大语言模型(LLM)的创造力评估,提出了LoTbench方法,通过多轮交互评估LLM生成创新内容的能力,强调应关注生成能力而非选择能力。该方法在CVPR'24中扩展,利用日式冷吐槽游戏进行测评,结果表明当前LLM的创造力仍需提升。
本研究提出了一种新的创造力评估方法,通过分析大型语言模型在“无趣”与“创意”回应时的内部状态差异,证明这些差异能够提升生成文本的创意。
完成下面两步后,将自动完成登录并继续当前操作。