热乎的:同样的Agent同样的任务,分别调用Qwen 3和DeepSeek对比谁更强?

热乎的:同样的Agent同样的任务,分别调用Qwen 3和DeepSeek对比谁更强?

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

在Qwen 3发布后,测试其与DeepSeek V0324在五个任务上的表现。Qwen 3仅成功完成1个任务,成功率25%;DeepSeek成功完成3个任务,成功率60%。Qwen 3执行任务时常返回代码,缺乏分析,速度较快;DeepSeek则结合思考与代码,易于理解。总体来看,DeepSeek表现更佳。

🎯

关键要点

  • Qwen 3发布后进行测试,比较其与DeepSeek V0324在五个任务上的表现。
  • Qwen 3成功完成1个任务,成功率25%;DeepSeek成功完成3个任务,成功率60%。
  • Qwen 3在执行任务时常返回代码,缺乏分析,速度较快;DeepSeek结合思考与代码,易于理解。
  • 测试用例包括浏览器收藏夹分析、股票推荐、画图软件控制、GDP数据分析和打卡记录生成。
  • Qwen 3在多个任务中未按指示执行,导致失败;DeepSeek在部分任务中也未能成功执行。
  • 整体体验显示DeepSeek在任务执行和结果理解上表现更佳。
  • 测试强调了大模型在工具使用和计算机控制方面的能力。
  • 测试结果不代表模型整体能力,仅在特定任务下观察反应。

延伸问答

Qwen 3和DeepSeek在任务成功率上有什么区别?

Qwen 3成功完成1个任务,成功率25%;DeepSeek成功完成3个任务,成功率60%。

Qwen 3在执行任务时存在哪些问题?

Qwen 3常返回代码,缺乏分析,未按指示执行任务,导致多个任务失败。

DeepSeek在任务执行中表现如何?

DeepSeek结合思考与代码,易于理解,成功完成了多个任务,表现更佳。

测试中使用了哪些具体任务?

测试任务包括浏览器收藏夹分析、股票推荐、画图软件控制、GDP数据分析和打卡记录生成。

Qwen 3和DeepSeek的速度表现如何?

Qwen 3速度较快,但缺乏分析;DeepSeek速度中等,结合思考与代码,易于理解。

这次测试的结果是否能代表模型的整体能力?

测试结果仅在特定任务下观察反应,不代表模型整体能力。

➡️

继续阅读