机器之心 ·

UCL博士生创业一年，造出最强AI「ML工程师」，OpenAI盖戳认证

💡 原文中文，约6600字，阅读约需16分钟。

📝

内容提要

OpenAI推出的新基准测试MLE-bench评估AI在机器学习工程中的表现。结果显示，结合AIDE框架的GPT-4o在Kaggle竞赛中表现优异，展现出AI自我改进的潜力。WecoAI团队将继续改进AIDE并关注AI安全。

🎯

🔎

AIDE框架专注于机器学习代码优化，能够将复杂问题拆分为具体指令，从而提高问题解决效率。这种设计使得AIDE在Kaggle竞赛中表现优于其他开源框架，尤其在处理特定任务时，展现出更强的能力。

WecoAI团队的目标是培养能够自主形成科学共同体的AI智能体。AIDE的设计理念与传统框架不同，强调自我改进，这可能在未来推动AI在科学研究中的应用，促进创造性思维和逻辑推理的发展。

尽管AIDE在Kaggle竞赛中表现出色，但OpenAI的MLE-bench测试也揭示了其局限性，包括对机器性能和时间限制的考虑不足。这表明，当前的AI模型在处理复杂任务时仍需改进，尚未达到完全自主的水平。

❓

MLE-bench基准测试旨在评估AI在机器学习工程中的表现，特别是在Kaggle竞赛中的能力。

AIDE框架专注于代码优化，能够在Kaggle竞赛中平均表现超过50%的人类参赛者，明显优于其他开源框架。

WecoAI团队计划持续改进AIDE，并关注AI安全问题，增强与社区的合作。

AIDE的AI Function范式通过将大问题拆分为具体指令，提高了问题解决的效率，使模型能够更好地利用训练中获得的知识。

GPT-4o结合AIDE框架在Kaggle竞赛中表现优异，获得了显著的奖牌数量，展现出AI自我改进的潜力。

AIDE框架在机器学习任务中表现出色，能够有效处理特定任务并优化解决方案，提升模型性能。

🏷️