全新生物学基准数据集LAB-Bench震撼开源!覆盖8大任务,超2.4K选择题
原文中文,约3800字,阅读约需9分钟。发表于: 。如下图所示,研究人员评估了 human、random、claude-3-5-sonnet-20240620、claude-3-opus-20240229、gemini-1.5-pro-001、gpt-4o、gpt-4-turbo、claude-3-haiku-20240307、meta-llama-3-70B-Instruct 在以上 3 类生物基准测试任务中的性能,并比较了它们的准确率...
大语言模型在科研领域应用普及,但缺乏对其在实际科学任务中性能的评估。FutureHouse Inc.推出语言Agent生物学基准数据集,用于评估AI系统在生物学研究中的表现。研究人员发现不同模型在不同任务中表现差异大,尤其在信息检索任务中存在问题。模型在处理DNA和蛋白质序列的任务上表现不佳,人类表现优于模型。