人工智能模型托管平台HuggingFace发现部分模型在基准测试中存在作弊行为,推出新版本的Open LLM Leaderboard以获得真实有效的评估结果。阿里云通义千问Qwen-72B模型在测试中排名第一。模型参数规模并非越大越好,AI公司开始关注主要测试而忽略其他方面的表现。未来可能需要构建更独特的测试集来评估模型。
使用知识蒸馏方法训练了一个开源模型,基于GPT-3.5生成的样本。模型参数规模为350m,可在单个16gb GPU上运行,并展示了足够大的能力,可以模仿GPT-3.5。
完成下面两步后,将自动完成登录并继续当前操作。