本论文介绍了GAOKAO-Benchmark,它是一个利用中国高考考试问题作为测试样本的基准测试,用于评估大型语言模型的方法。通过零-shot prompts的分析,发现ChatGPT模型在解决客观问题方面表现出色,同时也揭示了其不足和改进方向,为未来大规模语言模型的评估提供了基础和见解。
完成下面两步后,将自动完成登录并继续当前操作。