OpenAI ·

MLE-bench：评估机器学习代理在机器学习工程中的表现

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

我们介绍了MLE-bench，这是一个评估AI代理在机器学习工程表现的基准。我们从Kaggle挑选了75个相关竞赛，测试真实世界的ML工程技能，并建立了人类基线。评估结果显示，OpenAI的o1-preview在16.9%的竞赛中达到了Kaggle铜奖水平。此外，我们还研究了AI代理的资源扩展和预训练污染的影响，并开源了基准代码。

🎯

关键要点

介绍了MLE-bench，这是一个评估AI代理在机器学习工程表现的基准。
从Kaggle挑选了75个相关竞赛，测试真实世界的ML工程技能。
建立了人类基线，使用Kaggle的公开排行榜进行评估。
OpenAI的o1-preview在16.9%的竞赛中达到了Kaggle铜奖水平。
研究了AI代理的资源扩展和预训练污染的影响。
开源了基准代码，以促进未来对AI代理ML工程能力的研究。

❓

延伸问答

MLE-bench是什么？

MLE-bench是一个评估AI代理在机器学习工程表现的基准。

MLE-bench是如何评估AI代理的？

MLE-bench通过从Kaggle挑选75个相关竞赛，测试真实世界的ML工程技能来评估AI代理。

OpenAI的o1-preview在MLE-bench中的表现如何？

OpenAI的o1-preview在16.9%的竞赛中达到了Kaggle铜奖水平。

MLE-bench的研究中考虑了哪些因素？

研究中考虑了AI代理的资源扩展和预训练污染的影响。

MLE-bench的基准代码是否开源？

是的，MLE-bench的基准代码已开源，以促进未来的研究。

MLE-bench的主要目标是什么？

MLE-bench的主要目标是测量AI代理在机器学习工程中的表现。

🏷️

继续阅读

如何为机器学习预处理医疗影像——以胸部X光为例的指南
本文讨论了胸部X光影像数据集的预处理重要性，介绍了六个核心步骤：数据验证、缩放、归一化、关注区域引导、处理缺失数据和去噪。强调不当预处理可能导致模型性能下...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...
[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...
FurGPT 扩展了用于实时交互的 AI 代理生态系统
去中心化AI数字伴侣平台FurGPT扩展了生态系统，支持区块链网络上的实时交互，能够实时处理上下文信息，促进用户与数字伙伴的动态沟通。平台提升了去中心化应...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...