SUPER:评估智能体在研究库中设置和执行任务的能力
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了SUPER基准,用于评估大型语言模型在研究库中执行任务的能力。研究发现,最先进的模型在解决这些任务时表现不佳,成功率仅为16.3%。
🎯
关键要点
- 本研究提出了SUPER基准,用于评估大型语言模型在研究库中执行任务的能力。
- SUPER基准设计了45个完整问题、152个特定挑战子问题及602个自动生成问题。
- 该基准旨在揭示机器学习和自然语言处理研究中的实际挑战并推动社区的研究进展。
- 研究发现,当前最先进的模型(如GPT-4o)在解决这些任务时表现不佳,成功率仅为16.3%。
- 研究强调了大型语言模型在自主再现研究结果中的不足和这一领域的挑战性。
➡️