机器之心 ·

用了一个月后发现，Devin是真不好用

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

研究者在使用 AI 编程助手 Devin 一个月后反馈不佳，尽管在简单任务上表现尚可，但在复杂任务中频繁失败，且无法预测成功率。Devin 在处理现有代码和研究任务时表现糟糕，导致团队浪费大量时间。新版本虽有所改进，但未解决核心问题。

🎯

🔎

Devin在处理复杂任务时频繁失败，导致团队浪费大量时间。这表明，尽管AI工具在简单任务上表现良好，但在需要深度理解和上下文分析的复杂任务中，仍然存在显著的局限性。用户在选择使用AI助手时，应考虑任务的复杂性，以避免不必要的时间损失。

虽然Devin 1.2版本在某些功能上有所改进，如更准确的Pull Request生成，但仍未解决用户在使用中遇到的核心问题。这提醒用户在更新后要谨慎评估新功能的实际效果，避免盲目期待改进。

研究者的反馈强调了用户体验在AI工具中的重要性。尽管Devin的设计初衷是提高效率，但实际使用中却增加了工作量。这提示开发者在设计AI工具时，需更关注用户的实际需求和使用场景，以提升工具的实用性。

❓

Devin 在简单任务上表现尚可，例如成功将数据从 Notion 数据库拉取到 Google Sheet。

Devin 在复杂任务中频繁失败，无法识别限制，导致团队浪费大量时间。

团队普遍认为 Devin 在复杂任务上无法节省时间，反而增加了工作量。

新版本 Devin 1.2 提高了上下文推理能力，能够更准确地生成 Pull Request，并新增了音频消息响应功能。

Devin 在分析和修改现有代码时表现最差，无法理解上下文，导致生成的代码存在问题。

Devin 能够处理基本的文档查找，但对复杂的研究任务表现不佳，常常无法解决核心问题。

🏷️