CORE-Bench:通过计算可复现性代理基准提升已发表研究的可信度
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对科学研究中的计算可复现性问题,通过引入CORE-Bench基准来评估AI代理在此关键任务上的准确性。该基准提供了270个任务,涵盖计算机科学、社会科学和医学等领域,评估结果显示现有代理在最具挑战性的任务上仅达21%的准确率,强调了改进的巨大空间。这项工作有助于提升科学研究的可复现性,并推动未来研究代理的开发。
本文介绍了一种新的评估基准BioKGBench,用于评估大型语言模型驱动的副驾驶代理系统。研究发现当前最先进的代理系统在该基准测试中表现不佳。研究还提出了一个简单而有效的基准系统BKGAgent,并在知识图上发现了90多个事实错误。