小红花·文摘

研究人员使用专门的天文学数据集评估了专有和开放权重的大型语言模型在天文学领域的性能。结果显示，Claude-3.5-Sonnet模型的准确率达到了85.0%，优于竞争对手。开源模型也得到了快速改进，与一些最好的专有模型竞争。研究人员发现，在非以英语为重点的领域中，模型的性能较差，可能是由于训练数据较少和领域的快速发展。最好的模型表现出良好的校准自信度，为在天文学中实现经济部署提供了新的机会。