AIxiv专栏探讨了大语言模型(LLM)的创造力评估,提出了LoTbench方法,通过多轮交互评估LLM生成创新内容的能力,强调应关注生成能力而非选择能力。该方法在CVPR'24中扩展,利用日式冷吐槽游戏进行测评,结果表明当前LLM的创造力仍需提升。
完成下面两步后,将自动完成登录并继续当前操作。