💡
原文英文,约1800词,阅读约需7分钟。
📝
内容提要
随着技术的快速发展,多个大型语言模型(LLM)不断更新。测试显示,Gemini 2.0 Flash在创建简单宝可梦游戏中表现最佳,获得5星,而DeepSeek R1仅得1星,表明AI编程能力显著提升。
🎯
关键要点
- 技术快速发展,多个大型语言模型(LLM)不断更新。
- Claude 3.5 Sonnet曾是编程工作的领先选择,但是否仍然是最佳选择值得探讨。
- 测试任务是创建一个简单的宝可梦游戏,结果显示Gemini 2.0 Flash表现最佳,获得5星。
- DeepSeek R1表现不佳,仅获得1星,显示其编程能力不足。
- 测试分为两个阶段,第一阶段使用Claude 3.5 Sonnet、DeepSeek R1和ChatGPT-4o,第二阶段使用更多LLM进行更全面的评估。
- Gemini 2.0 Flash在响应速度和游戏功能上表现出色,创建了一个完整的游戏。
- Grok 2的代码库存在问题,需通过Claude修复后才能正常工作。
- Mistral在生成代码方面速度最快,仅用2秒。
- o3-mini成功创建了一个工作应用,但按钮名称较为通用。
- Qwen2.5-Max的游戏逻辑需要改进,攻击伤害固定为1。
- Claude 3.5 Sonnet的游戏逻辑存在问题,无法显示宝可梦图像,但成功修复了其他模型的代码。
- 测试结果显示AI模型在创建代码方面的能力显著提升,尤其是在较少人类干预的情况下。
➡️