用整数序列生成任务对大型语言模型进行基准测试

本文提出了一种新颖的基准测试，评估大型语言模型（LLM）生成计算整数序列的代码的能力，借助广泛使用的整数序列在线百科全书（OEIS）。研究发现，o1系列模型在易难序列的准确性和作弊率上优于其他前沿模型，并引入了一种自动作弊检测机制，以确保模型不利用记忆中的序列值。这一基准测试为当前LLM提供了新的挑战，揭示了它们在数学推理和代码生成方面的能力，指导未来的研究方向和模型开发。

CS-Bench是首个评估大型语言模型（LLM）在计算机科学（CS）领域性能的双语基准，涵盖26个子领域。通过对30多个LLM的评估，揭示了模型规模与CS性能之间的关系，并分析了LLM的失败原因。未来，CS-Bench将成为LLM在CS应用的基础。

CS-Bench LLM 基准测试大型语言模型性能评估模型规模计算机科学