SciBench是一个用于测试大型语言模型(LLM)推理能力的基准套件。研究结果显示,LLM在解决复杂科学问题时表现不佳,综合得分仅为35.80%。通过用户研究,发现LLM存在十种问题解决能力方面的错误。预计SciBench将推动LLM的推理能力进一步发展,促进科学研究和发现。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: