SWE-bench:能否通过语言模型解决真实世界的 GitHub 问题?
原文中文,约500字,阅读约需2分钟。发表于: 。评估了新一代语言模型在软件工程领域的能力,通过 SWE-bench 框架提供了包括软件工程问题和对应 Python 库的真实 GitHub 问题的解决方案,结果表明目前的模型在解决问题时仍存在困难,呼吁进一步提高模型在实际应用中的智能和自主能力。
SciBench是一个广泛基准套件,用于检验大型语言模型在解决复杂科学问题时的推理能力。SciBench包含两个数据集,通过对两个代表性LLM进行深入的基准研究,结果表明当前LLM的表现不尽如人意,综合得分仅为35.80%。作者预计SciBench将催生LLM的推理能力进一步发展,从而最终促进科学研究和发现。