小红花·文摘

首页
广场
排行榜^🏆
直播
FAQ

斯坦福、普林斯顿和康奈尔的研究人员开发了CodeClash基准，以评估大型语言模型（LLMs）的编码能力。该基准通过多轮比赛测试LLMs实现高层目标的能力，模拟开发周期的迭代过程。研究团队进行了1680场比赛，发现没有单一模型在所有领域中表现最佳，GPT 5在分析其他LLMs生成的代码时表现优异。未来研究将关注更大代码库和多重竞争目标。