机器之心 ·

探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

AIxiv专栏探讨了大语言模型（LLM）的创造力评估，提出了LoTbench方法，通过多轮交互评估LLM生成创新内容的能力，强调应关注生成能力而非选择能力。该方法在CVPR'24中扩展，利用日式冷吐槽游戏进行测评，结果表明当前LLM的创造力仍需提升。

🎯

🔎

LoTbench方法的提出为大语言模型的创造力评估提供了新的视角。与传统的选择和排序评估方式不同，LoTbench强调生成创新内容的能力，这一转变可能会推动LLM在创造力方面的进一步发展。研究者通过多轮交互的方式，能够更准确地衡量模型的创造力水平，尤其是在复杂的任务场景中。

日式冷吐槽游戏作为LoTbench评估的一部分，展示了其在创造力测评中的独特优势。这类游戏不仅要求参与者具备高水平的创造力，还能提供丰富的高质量数据支持，适合多模态大模型的输入输出格式。通过这种方式，研究者能够更有效地评估LLM的创新能力，推动相关技术的进步。

尽管一些主流LLM在LoTbench测评中表现出一定的创造力，但整体水平仍显不足，尤其是DeepSeek模型的表现仍处于人类初级阶段。这一现状提示我们，尽管LLM在某些任务上具有超越人类的潜力，但在创造力的实际应用中仍需持续改进和创新。

❓

LoTbench方法旨在通过多轮交互评估大语言模型（LLM）生成创新内容的能力，强调生成能力而非选择能力。

日式冷吐槽游戏适合多模态LLM进行创造力测评，因其对创造力要求高且有丰富的数据支持。

当前主流LLM在LoTbench测评中创造力表现不强，但具有超越人类的潜力。

评估LLM的创造力应关注其生成高质量创新内容所需的轮数，轮数越少，创造力越高。

DAESO用于判断生成内容的创新性，需满足核心创新解释和功能相似性。

人类评估的准确率高但不可持续，且成本非常高，因此不适合大规模应用。

🏷️