用了一个月后发现,Devin是真不好用

用了一个月后发现,Devin是真不好用

💡 原文中文,约5000字,阅读约需12分钟。
📝

内容提要

研究者在使用 AI 编程助手 Devin 一个月后反馈不佳,尽管在简单任务上表现尚可,但在复杂任务中频繁失败,且无法预测成功率。Devin 在处理现有代码和研究任务时表现糟糕,导致团队浪费大量时间。新版本虽有所改进,但未解决核心问题。

🎯

关键要点

  • 研究者在使用 AI 编程助手 Devin 一个月后反馈不佳。
  • Devin 在简单任务上表现尚可,但在复杂任务中频繁失败。
  • Devin 在处理现有代码和研究任务时表现糟糕,导致团队浪费大量时间。
  • 新版本虽有所改进,但未解决核心问题。
  • Devin 能够完成简单任务,如将数据从 Notion 数据库拉取到 Google Sheet。
  • 在复杂任务上,Devin 常常无法识别限制,导致浪费时间。
  • 在 20 项任务中,Devin 14 次失败,3 次成功,3 次结果不确定。
  • Devin 在从零开始创建新项目时表现较好,但生成的代码复杂且难以理解。
  • 在研究任务中,Devin 处理基本文档查找尚可,但对复杂任务表现不佳。
  • Devin 在分析和修改现有代码时表现最差,无法理解上下文。
  • 团队成员普遍认为 Devin 在复杂任务上无法节省时间,反而增加了工作量。
  • 新版本 Devin 1.2 进行了小幅更新,但未能解决用户在使用中遇到的主要问题。

延伸问答

Devin 在简单任务上的表现如何?

Devin 在简单任务上表现尚可,例如成功将数据从 Notion 数据库拉取到 Google Sheet。

Devin 在复杂任务中遇到了哪些问题?

Devin 在复杂任务中频繁失败,无法识别限制,导致团队浪费大量时间。

使用 Devin 的团队对其的总体反馈是什么?

团队普遍认为 Devin 在复杂任务上无法节省时间,反而增加了工作量。

Devin 1.2 版本的更新内容有哪些?

新版本 Devin 1.2 提高了上下文推理能力,能够更准确地生成 Pull Request,并新增了音频消息响应功能。

Devin 在处理现有代码时表现如何?

Devin 在分析和修改现有代码时表现最差,无法理解上下文,导致生成的代码存在问题。

Devin 在研究任务中的表现如何?

Devin 能够处理基本的文档查找,但对复杂的研究任务表现不佳,常常无法解决核心问题。

➡️

继续阅读