大型语言模型的心理测量辅助基准测试:数学能力的案例研究

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

SciBench是一个用于测试大型语言模型(LLM)推理能力的基准套件。研究结果显示,LLM在解决复杂科学问题时表现不佳,综合得分仅为35.80%。通过用户研究,发现LLM存在十种问题解决能力方面的错误。预计SciBench将推动LLM的推理能力进一步发展,促进科学研究和发现。

原文中文,约500字,阅读约需2分钟。
阅读原文