InfoQ ·

Hugging Face推出透明模型基准评估的Community Evals

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

Hugging Face推出Community Evals功能，允许在Hub上创建基准数据集排行榜并自动收集评估结果。该系统基于Git基础设施，确保提交的透明性、可版本化和可重复性。用户可通过拉取请求提交评估结果，提升评估的一致性和可追溯性，目前处于测试阶段。

🎯

关键要点

Hugging Face推出Community Evals功能，允许在Hub上创建基准数据集排行榜并自动收集评估结果。
该系统基于Git基础设施，确保提交的透明性、可版本化和可重复性。
数据集仓库可以注册为基准，自动收集和显示评估结果。
基准通过eval.yaml文件定义评估规范，确保结果可重复。
模型仓库可以在.eval_results/目录中存储结构化的评估分数，这些结果会自动链接到相应的基准数据集。
任何Hub用户都可以通过拉取请求提交模型的评估结果，社区提交的分数会被标记并可引用外部来源。
该功能旨在解决论文、模型卡和评估平台中报告的基准结果不一致的问题。
用户对该功能的早期反应积极，欢迎去中心化和透明的评估报告。
Hugging Face强调Community Evals并不取代现有的基准或封闭评估过程，而是提供了一个机制来公开社区已产生的评估结果。
该功能目前处于测试阶段，开发者可以通过添加YAML评估文件或注册数据集仓库参与。

❓

延伸问答

Hugging Face的Community Evals功能有什么主要用途？

Community Evals功能允许在Hub上创建基准数据集排行榜并自动收集评估结果，旨在提高评估的一致性和可追溯性。

如何在Hugging Face上提交模型的评估结果？

用户可以通过拉取请求提交模型的评估结果，社区提交的分数会被标记并可引用外部来源。

Community Evals如何确保评估结果的透明性和可重复性？

该系统基于Git基础设施，确保提交的透明性、可版本化和可重复性，评估规范通过eval.yaml文件定义。

Hugging Face的Community Evals与传统基准有什么不同？

Community Evals并不取代现有的基准，而是提供了一个机制来公开社区已产生的评估结果，旨在解决报告不一致的问题。

用户对Community Evals的早期反应如何？

用户的早期反应积极，欢迎去中心化和透明的评估报告，认为社区提交的分数更具价值。

开发者如何参与Hugging Face的Community Evals？

开发者可以通过添加YAML评估文件或注册数据集仓库参与Community Evals，系统目前处于测试阶段。

🏷️

继续阅读

继续屠杀全球AI模型：DeepSeek V4 API价格公布起步价仅0.2元/百万输入
深度求索发布了DeepSeek V4模型，起步价为每百万输入0.2元，交付质量接近Claude Opus 4.6。V4系列包括Flash和Pro两种型号，...
OpenAI开源发布1.5B的隐私过滤模型可以精确识别文本中包含的个人隐私信息
OpenAI 发布了隐私过滤模型 Privacy Filter，能够精准识别并清除个人隐私信息，如姓名、电话和邮箱。该模型体积小，适合在普通设备上运行，并...
派早报：OpenAI 发布 GPT-5.5 系列模型等
OpenAI 发布了 GPT-5.5 系列模型，提升了代码编写、在线研究和文档生成能力，支持复杂任务的自动处理。新模型降低了 token 使用量，并增强了...
OpenAI表示其新模型GPT-5.5在编码方面更高效且表现更佳
OpenAI发布了新模型GPT-5.5，称其为“最智能、最直观”的版本，特别擅长编写和调试代码、在线研究及处理多工具任务。该模型具备更强的安全防护，能用更...
人工智能缩水：为何Anthropic的Claude Opus 4.7可能不如其替代模型
Anthropic发布的Claude Opus 4.7模型引发用户不满，因其在复杂推理和分析方面表现不佳，用户反映模型常常自我怀疑，导致效率低下。分析师认...
Rocketium任命两位执行合伙人，推动AI Studio企业业务增长
Rocketium任命Hitesh Mehta和Sharon Foo为执行合伙人，旨在推动AI Studio的企业业务增长。两位合伙人将利用其丰富的广告行...