蓝点网 ·

HuggingFace搭建新系统测试模型能力通义千问排名第一部分模型被发现作弊

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

人工智能模型托管平台HuggingFace发现部分模型在基准测试中存在作弊行为，推出新版本的Open LLM Leaderboard以获得真实有效的评估结果。阿里云通义千问Qwen-72B模型在测试中排名第一。模型参数规模并非越大越好，AI公司开始关注主要测试而忽略其他方面的表现。未来可能需要构建更独特的测试集来评估模型。

🎯

关键要点

HuggingFace发现部分模型在基准测试中存在作弊行为。
推出新版本的Open LLM Leaderboard以获得真实有效的评估结果。
阿里云通义千问Qwen-72B模型在测试中排名第一。
模型参数规模并非越大越好，部分超大规模模型能力不佳。
新的评测有效解决了此前评测难度太低的问题。
AI公司开始关注主要测试，忽略其他方面表现。
行业可能需要构建更独特的测试集来评估模型。

❓

延伸问答

HuggingFace的新系统有什么特点？

HuggingFace的新系统使用300张NVIDIA H100加速卡，采用更高难度的测试集来评估模型，旨在获得真实有效的评估结果。

阿里云通义千问Qwen-72B模型的表现如何？

阿里云通义千问Qwen-72B模型在测试中排名第一，显示出其综合能力强于Meta Llama系列模型。

为什么部分模型在基准测试中被发现作弊？

部分模型通过优化提示词或评估设置来提高分数，这种作弊行为在新的评估系统中被揭露。

新的评测系统如何解决之前的问题？

新的评测系统通过提高测试集的难度，解决了之前评测难度太低的问题，更好地反映模型的真实能力。

AI公司在模型评估中面临什么挑战？

AI公司开始关注主要测试而忽略其他方面的表现，可能导致模型能力的全面评估不足。

未来模型评估可能需要哪些变化？

未来行业可能需要构建更独特的测试集，以有效评估模型并减少作弊行为的发生。

🏷️