FutureHouse Inc.发布了LAB-Bench生物学基准数据集,用于评估人工智能系统在各种生物研究任务中的性能。数据集包括2400多个多项选择题,涵盖文献检索、图表解释、表格解释、数据库访问、协议编写以及DNA和蛋白质序列的理解和处理等主题。研究人员评估了不同模型在文献回忆、补充材料信息检索以及表格和协议数据解释等任务中的表现。结果显示,虽然模型在某些任务中表现良好,但在需要DNA和蛋白质序列处理的任务中表现较差。总体而言,人类在实际研究任务中的表现仍然优于模型。
完成下面两步后,将自动完成登录并继续当前操作。