💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
在Qwen 3发布后,测试其与DeepSeek V0324在五个任务上的表现。Qwen 3仅成功完成1个任务,成功率25%;DeepSeek成功完成3个任务,成功率60%。Qwen 3执行任务时常返回代码,缺乏分析,速度较快;DeepSeek则结合思考与代码,易于理解。总体来看,DeepSeek表现更佳。
🎯
关键要点
- Qwen 3发布后进行测试,比较其与DeepSeek V0324在五个任务上的表现。
- Qwen 3成功完成1个任务,成功率25%;DeepSeek成功完成3个任务,成功率60%。
- Qwen 3在执行任务时常返回代码,缺乏分析,速度较快;DeepSeek结合思考与代码,易于理解。
- 测试用例包括浏览器收藏夹分析、股票推荐、画图软件控制、GDP数据分析和打卡记录生成。
- Qwen 3在多个任务中未按指示执行,导致失败;DeepSeek在部分任务中也未能成功执行。
- 整体体验显示DeepSeek在任务执行和结果理解上表现更佳。
- 测试强调了大模型在工具使用和计算机控制方面的能力。
- 测试结果不代表模型整体能力,仅在特定任务下观察反应。
❓
延伸问答
Qwen 3和DeepSeek在任务成功率上有什么区别?
Qwen 3成功完成1个任务,成功率25%;DeepSeek成功完成3个任务,成功率60%。
Qwen 3在执行任务时存在哪些问题?
Qwen 3常返回代码,缺乏分析,未按指示执行任务,导致多个任务失败。
DeepSeek在任务执行中表现如何?
DeepSeek结合思考与代码,易于理解,成功完成了多个任务,表现更佳。
测试中使用了哪些具体任务?
测试任务包括浏览器收藏夹分析、股票推荐、画图软件控制、GDP数据分析和打卡记录生成。
Qwen 3和DeepSeek的速度表现如何?
Qwen 3速度较快,但缺乏分析;DeepSeek速度中等,结合思考与代码,易于理解。
这次测试的结果是否能代表模型的整体能力?
测试结果仅在特定任务下观察反应,不代表模型整体能力。
➡️