💡
原文中文,约5000字,阅读约需12分钟。
📝
内容提要
研究者在使用 AI 编程助手 Devin 一个月后反馈不佳,尽管在简单任务上表现尚可,但在复杂任务中频繁失败,且无法预测成功率。Devin 在处理现有代码和研究任务时表现糟糕,导致团队浪费大量时间。新版本虽有所改进,但未解决核心问题。
🎯
关键要点
- 研究者在使用 AI 编程助手 Devin 一个月后反馈不佳。
- Devin 在简单任务上表现尚可,但在复杂任务中频繁失败。
- Devin 在处理现有代码和研究任务时表现糟糕,导致团队浪费大量时间。
- 新版本虽有所改进,但未解决核心问题。
- Devin 能够完成简单任务,如将数据从 Notion 数据库拉取到 Google Sheet。
- 在复杂任务上,Devin 常常无法识别限制,导致浪费时间。
- 在 20 项任务中,Devin 14 次失败,3 次成功,3 次结果不确定。
- Devin 在从零开始创建新项目时表现较好,但生成的代码复杂且难以理解。
- 在研究任务中,Devin 处理基本文档查找尚可,但对复杂任务表现不佳。
- Devin 在分析和修改现有代码时表现最差,无法理解上下文。
- 团队成员普遍认为 Devin 在复杂任务上无法节省时间,反而增加了工作量。
- 新版本 Devin 1.2 进行了小幅更新,但未能解决用户在使用中遇到的主要问题。
➡️