小红花·文摘

本论文介绍了GAOKAO-Benchmark，它是一个利用中国高考考试问题作为测试样本的基准测试，用于评估大型语言模型的方法。通过零-shot prompts的分析，发现ChatGPT模型在解决客观问题方面表现出色，同时也揭示了其不足和改进方向，为未来大规模语言模型的评估提供了基础和见解。