小红花·文摘

本文介绍了TheoremQA数据集，用于评估AI模型解决科学问题的能力。研究发现GPT-4在Program-of-Thoughts Prompting的帮助下表现出色，超过其他开源模型，达到51%。