HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊
原文中文,约1200字,阅读约需3分钟。发表于: 。#人工智能 HuggingFace 搭建新系统评估开源和开放模型,此次测试阿里云通义千问 Qwen-72B 版力压群雄排名第一。值得注意的是测试也发现部分模型存在作弊,即针对基准测试进行优化以取得更好的分数,但在新系统中就被暴露出来了,未来这种情况应该会越来越多。查看全文:https://ourl.co/104711
人工智能模型托管平台HuggingFace发现部分模型在基准测试中存在作弊行为,推出新版本的Open LLM Leaderboard以获得真实有效的评估结果。阿里云通义千问Qwen-72B模型在测试中排名第一。模型参数规模并非越大越好,AI公司开始关注主要测试而忽略其他方面的表现。未来可能需要构建更独特的测试集来评估模型。