大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

谢赛宁领导的华人团队推出了LiveCodeBench Pro编程竞赛基准,测试显示多款大模型在编程题上表现不佳,均得0分。该基准每日更新题库,旨在防止模型“背题”。结果表明,模型在逻辑和知识密集型问题上表现较好,但在观察密集型问题上能力不足,反映出算法推理和案例分析的短板。

🎯

关键要点

  • 谢赛宁领导的华人团队推出了LiveCodeBench Pro编程竞赛基准,测试显示多款大模型在编程题上表现不佳,均得0分。
  • LiveCodeBench Pro是一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试,题库每日更新以防止模型“背题”。
  • 测试结果表明,模型在逻辑和知识密集型问题上表现较好,但在观察密集型问题上能力不足,反映出算法推理和案例分析的短板。
  • 团队对584道顶流竞赛题进行了标注,并根据问题的认知焦点将题目分为知识密集型、逻辑密集型和观察密集型三大类。
  • 测试显示,模型在简单和中等难度题目上表现较好,但在困难题目上表现不佳,尤其是在需要精细算法推理的题目上。
  • 团队成员大部分为华人,主要负责人郑子涵和柴文浩均有丰富的竞赛和研究背景。
  • 每个季度,团队将发布一个全新的评估集,以保证数据的时效性和挑战性。

延伸问答

LiveCodeBench Pro是什么?

LiveCodeBench Pro是一个实时编程竞赛基准,包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新。

测试结果显示大模型在编程题上的表现如何?

测试显示多款大模型在编程题上表现不佳,均得0分,尤其在观察密集型问题上能力不足。

LiveCodeBench Pro如何防止模型刷题?

该基准每日更新题库,以减少数据污染,防止模型“背题”。

模型在不同类型问题上的表现有何差异?

模型在知识密集型和逻辑密集型问题上表现较好,但在观察密集型问题上表现较差。

该团队的主要负责人是谁?

主要负责人是郑子涵和柴文浩,他们都有丰富的竞赛和研究背景。

团队将如何保持评估集的时效性?

团队每个季度将发布一个全新的评估集,以保证数据的时效性和挑战性。

➡️

继续阅读