小红花·文摘

FutureHouse Inc.发布了LAB-Bench生物学基准数据集，用于评估人工智能系统在各种生物研究任务中的性能。数据集包括2400多个多项选择题，涵盖文献检索、图表解释、表格解释、数据库访问、协议编写以及DNA和蛋白质序列的理解和处理等主题。研究人员评估了不同模型在文献回忆、补充材料信息检索以及表格和协议数据解释等任务中的表现。结果显示，虽然模型在某些任务中表现良好，但在需要DNA和蛋白质序列处理的任务中表现较差。总体而言，人类在实际研究任务中的表现仍然优于模型。