大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
谢赛宁领导的华人团队推出了LiveCodeBench Pro编程竞赛基准,测试显示多款大模型在编程题上表现不佳,均得0分。该基准每日更新题库,旨在防止模型“背题”。结果表明,模型在逻辑和知识密集型问题上表现较好,但在观察密集型问题上能力不足,反映出算法推理和案例分析的短板。
🎯
关键要点
- 谢赛宁领导的华人团队推出了LiveCodeBench Pro编程竞赛基准,测试显示多款大模型在编程题上表现不佳,均得0分。
- LiveCodeBench Pro是一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试,题库每日更新以防止模型“背题”。
- 测试结果表明,模型在逻辑和知识密集型问题上表现较好,但在观察密集型问题上能力不足,反映出算法推理和案例分析的短板。
- 团队对584道顶流竞赛题进行了标注,并根据问题的认知焦点将题目分为知识密集型、逻辑密集型和观察密集型三大类。
- 测试显示,模型在简单和中等难度题目上表现较好,但在困难题目上表现不佳,尤其是在需要精细算法推理的题目上。
- 团队成员大部分为华人,主要负责人郑子涵和柴文浩均有丰富的竞赛和研究背景。
- 每个季度,团队将发布一个全新的评估集,以保证数据的时效性和挑战性。
❓
延伸问答
LiveCodeBench Pro是什么?
LiveCodeBench Pro是一个实时编程竞赛基准,包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新。
测试结果显示大模型在编程题上的表现如何?
测试显示多款大模型在编程题上表现不佳,均得0分,尤其在观察密集型问题上能力不足。
LiveCodeBench Pro如何防止模型刷题?
该基准每日更新题库,以减少数据污染,防止模型“背题”。
模型在不同类型问题上的表现有何差异?
模型在知识密集型和逻辑密集型问题上表现较好,但在观察密集型问题上表现较差。
该团队的主要负责人是谁?
主要负责人是郑子涵和柴文浩,他们都有丰富的竞赛和研究背景。
团队将如何保持评估集的时效性?
团队每个季度将发布一个全新的评估集,以保证数据的时效性和挑战性。
🏷️
标签
➡️