AstroMLab 1:谁能赢得天文知识问答?
原文中文,约700字,阅读约需2分钟。发表于: 。通过使用第一个专门为天文学设计的基准数据集,我们全面评估了专有和开放权重的大型语言模型。我们的分析检查了模型在各种天文学子领域的性能,并评估了响应校准,对于潜在在研究环境中的部署至关重要。Claude-3.5-Sonnet 在精度上优于竞争对手高达 4.6 个百分点,达到了 85.0% 的准确率。对于专有模型,我们观察到实现相似分数在特定的天文学基准测试中每隔 3 到 12...
研究人员使用专门的天文学数据集评估了专有和开放权重的大型语言模型在天文学领域的性能。结果显示,Claude-3.5-Sonnet模型的准确率达到了85.0%,优于竞争对手。开源模型也得到了快速改进,与一些最好的专有模型竞争。研究人员发现,在非以英语为重点的领域中,模型的性能较差,可能是由于训练数据较少和领域的快速发展。最好的模型表现出良好的校准自信度,为在天文学中实现经济部署提供了新的机会。