Let's Continue Testing Large Models to See How Many Questions They Can Answer Correctly
原文英文,约300词,阅读约需2分钟。发表于: 。对于小白来说,面对“如何让大语言模型做题”这一话题,脑海中呈现出的便是用户自己一题一题地输入给LLMs。然而,对于程序员来说,该如何让它自动地读取题库、进而测评呢?谭亲怡同学借这篇稿子具体介绍了如何将LLMs、Azure OpenAI服务和GaoKao-Bench项目配合使用,以测评不同大语言模型针对不同学科的做题能力。这里的题是指高考题,高考题啊,评测结果说老实话让我大吃一惊!以下为评测方式的说...
该文章介绍了使用LLMs、Azure OpenAI服务和GaoKao-Bench项目评估大语言模型在不同学科的能力。评估结果显示gpt-4o在理科题目上表现最好,gpt-4o-mini次之,gpt-35-turbo表现最差。