量子位 ·

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

谢赛宁领导的华人团队推出了LiveCodeBench Pro编程竞赛基准，测试显示多款大模型在编程题上表现不佳，均得0分。该基准每日更新题库，旨在防止模型“背题”。结果表明，模型在逻辑和知识密集型问题上表现较好，但在观察密集型问题上能力不足，反映出算法推理和案例分析的短板。

🎯

❓

LiveCodeBench Pro是一个实时编程竞赛基准，包含来自IOI、Codeforces和ICPC的竞赛级编程问题，题库每日更新。

测试显示多款大模型在编程题上表现不佳，均得0分，尤其在观察密集型问题上能力不足。

该基准每日更新题库，以减少数据污染，防止模型“背题”。

模型在知识密集型和逻辑密集型问题上表现较好，但在观察密集型问题上表现较差。

主要负责人是郑子涵和柴文浩，他们都有丰富的竞赛和研究背景。

团队每个季度将发布一个全新的评估集，以保证数据的时效性和挑战性。

🏷️

大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上正式可用
亚马逊云科技宣布，GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上线，企业可直接调用这些大模型以支持复杂任务，计费标准与Ope...
Python要改名Pythin？它正变成编程界的拼音
文章探讨了人工智能对Python未来的影响，认为Python可能转变为一种教学工具，帮助新手学习编程的基本概念。随着AI写代码的普及，程序员将更关注代码效...
OpenSpec + Superpowers: SDD+TDD 双驱动 AI 编程工作流
OpenSpec与Superpowers结合形成了完整的AI编程工作流，分别实现规格驱动开发(SDD)和测试驱动开发(TDD)。OpenSpec用于生成和...
跑大模型，最贵的不是 GPU，是这个东西
Llama-70B模型在处理128K token请求时，KV Cache占用429GB显存，成为推理成本的主要因素。通过TurboQuant、PD拆分和L...
工程日历是无人跟踪的数据库账单
数据库维护工作增加，工程师时间被占用，影响产品开发。数据量增长和架构问题导致重复工作，降低团队效率。优化数据库架构是解决问题的关键，需要关注日常工作和会议...