小红花·文摘 - 小红花技术领袖俱乐部

人工智能模型托管平台HuggingFace发现部分模型在基准测试中存在作弊行为，推出新版本的Open LLM Leaderboard以获得真实有效的评估结果。阿里云通义千问Qwen-72B模型在测试中排名第一。模型参数规模并非越大越好，AI公司开始关注主要测试而忽略其他方面的表现。未来可能需要构建更独特的测试集来评估模型。

HuggingFace搭建新系统测试模型能力通义千问排名第一部分模型被发现作弊

蓝点网 ·

使用知识蒸馏方法训练了一个开源模型，基于GPT-3.5生成的样本。模型参数规模为350m，可在单个16gb GPU上运行，并展示了足够大的能力，可以模仿GPT-3.5。

源代码摘要的精简 GPT

BriefGPT - AI 论文速递 ·