dotNET跨平台 ·

热乎的：同样的Agent同样的任务，分别调用Qwen 3和DeepSeek对比谁更强？

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

在Qwen 3发布后，测试其与DeepSeek V0324在五个任务上的表现。Qwen 3仅成功完成1个任务，成功率25%；DeepSeek成功完成3个任务，成功率60%。Qwen 3执行任务时常返回代码，缺乏分析，速度较快；DeepSeek则结合思考与代码，易于理解。总体来看，DeepSeek表现更佳。

🎯

关键要点

Qwen 3发布后进行测试，比较其与DeepSeek V0324在五个任务上的表现。
Qwen 3成功完成1个任务，成功率25%；DeepSeek成功完成3个任务，成功率60%。
Qwen 3在执行任务时常返回代码，缺乏分析，速度较快；DeepSeek结合思考与代码，易于理解。
测试用例包括浏览器收藏夹分析、股票推荐、画图软件控制、GDP数据分析和打卡记录生成。
Qwen 3在多个任务中未按指示执行，导致失败；DeepSeek在部分任务中也未能成功执行。
整体体验显示DeepSeek在任务执行和结果理解上表现更佳。
测试强调了大模型在工具使用和计算机控制方面的能力。
测试结果不代表模型整体能力，仅在特定任务下观察反应。

🔎

延伸解读

模型表现差异分析

在此次测试中，Qwen 3和DeepSeek在任务完成率上存在明显差异。Qwen 3仅成功完成1个任务，显示出其在复杂任务处理上的不足，尤其是在需要深度分析和理解的场景中。相比之下，DeepSeek在多个任务中表现更佳，成功率达到60%。这表明在选择模型时，用户应考虑任务的复杂性和模型的适应能力。

任务执行的局限性

测试结果显示，尽管DeepSeek在任务执行上表现较好，但仍有部分任务未能成功完成。这提醒用户，当前大模型在特定任务下的表现并不代表其整体能力，尤其是在面对复杂的计算机控制和数据分析时，模型的局限性可能会影响最终结果。

用户体验与反馈

Qwen 3在执行任务时返回的内容较少，缺乏分析，可能导致用户在理解结果时遇到困难。相对而言，DeepSeek结合了思考与代码，提供了更易于理解的反馈。这一差异强调了用户在选择模型时应关注其输出的可读性和实用性，以提升整体使用体验。

❓

延伸问答

Qwen 3和DeepSeek在任务成功率上有什么区别？

Qwen 3成功完成1个任务，成功率25%；DeepSeek成功完成3个任务，成功率60%。

Qwen 3在执行任务时存在哪些问题？

Qwen 3常返回代码，缺乏分析，未按指示执行任务，导致多个任务失败。

DeepSeek在任务执行中表现如何？

DeepSeek结合思考与代码，易于理解，成功完成了多个任务，表现更佳。

测试中使用了哪些具体任务？

测试任务包括浏览器收藏夹分析、股票推荐、画图软件控制、GDP数据分析和打卡记录生成。

Qwen 3和DeepSeek的速度表现如何？

Qwen 3速度较快，但缺乏分析；DeepSeek速度中等，结合思考与代码，易于理解。

这次测试的结果是否能代表模型的整体能力？

测试结果仅在特定任务下观察反应，不代表模型整体能力。

🏷️