科学工作流智能辅助任务的新数据集和基准
原文中文,约500字,阅读约需2分钟。发表于: 。科学创新依赖于详细的工作流程,而科学出版物的无结构性使得科研人员和人工智能系统难以有效地浏览和探索科学创新领域。为了解决这个问题,我们介绍了 MASSW,一个关于科学工作流多方面摘要的全面文本数据集。使用大型语言模型(LLMs),我们自动从这些出版物中提取了五个核心方面,它们对应于研究工作流程中的五个关键步骤。通过多种机器学习任务,我们展示了 MASSW...
SciAssess是一个用于评估大规模语言模型(LLMs)在科学领域的基准,评估了GPT-4、GPT-3.5-turbo和Gemini等领先的LLM,并提供了改进的领域。