Hugging Face发布了Open LLM Leaderboard v2,这是一个升级的平台,用于评估大型语言模型。它为AI社区提供标准化评估,促进开源模型的进步和团队间的比较。新版采用归一化评分方法,使排名更公平。尽管数据污染检测仍在研究中,平台正探索新技术。长上下文任务的趋势在增长,但模型开发需平衡效率和多任务性能。
完成下面两步后,将自动完成登录并继续当前操作。