DEV Community ·

我测试了顶尖的AI模型来构建相同的应用程序 - 结果令人震惊！

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

随着技术的快速发展，多个大型语言模型（LLM）不断更新。测试显示，Gemini 2.0 Flash在创建简单宝可梦游戏中表现最佳，获得5星，而DeepSeek R1仅得1星，表明AI编程能力显著提升。

🎯

🔎

随着技术的迅速发展，AI模型的能力不断提升。测试中，Gemini 2.0 Flash以其快速响应和出色的游戏功能脱颖而出，显示出其在编程任务中的优势。这表明，开发者在选择AI工具时应关注模型的最新版本，以获得最佳性能。

测试结果显示，不同AI模型在编程能力上存在显著差异。例如，DeepSeek R1的表现不佳，未能创建功能完整的游戏，而Mistral和o3-mini则在较短时间内生成了可用的代码。这提醒用户在选择AI工具时，需考虑其实际表现和适用性。

尽管AI模型在生成代码方面取得了进展，但仍需人类干预来修复错误和优化功能。例如，Claude 3.5 Sonnet成功修复了其他模型的代码，显示出人类在AI开发过程中的不可或缺性。开发者应准备好在使用AI时进行必要的调整。

❓

Gemini 2.0 Flash在创建宝可梦游戏中表现最佳，获得5星评价。

DeepSeek R1表现不佳，仅获得1星，游戏功能不完整。

Claude 3.5 Sonnet的游戏逻辑存在问题，无法显示宝可梦图像。

Mistral是所有测试模型中生成代码速度最快的，仅用2秒。

Grok 2的代码库存在问题，需通过Claude修复后才能正常工作。

o3-mini成功创建了一个工作应用，但按钮名称较为通用。

🏷️