机器之心 ·

DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

💡 原文中文，约5900字，阅读约需14分钟。

📝

内容提要

DeepSeek-R1模型经过测试，表现与OpenAI高级模型相当，性价比高。测试涵盖创意写作和数学等领域，DeepSeek在多个项目中表现优异，但在一些基础问题上出现错误。整体来看，DeepSeek-R1具备与OpenAI竞争的实力。

🎯

🔎

DeepSeek-R1的训练成本仅为OpenAI高级模型的一小部分，这使得其在性价比上具有明显优势。对于预算有限的开发者和企业来说，DeepSeek-R1提供了一个可行的替代方案，能够在不牺牲性能的情况下，降低AI应用的开发成本。

尽管DeepSeek-R1在创意写作和数学等领域表现出色，但在一些基础问题上仍然出现错误。这表明，虽然其综合实力强劲，但在处理复杂指令时可能存在局限性，用户在使用时需谨慎评估其适用场景。

在多项测试中，DeepSeek-R1与OpenAI的模型进行了直接对比，结果显示其在某些任务上表现优异。然而，OpenAI模型在遵循复杂指令和基础算术问题上表现更为稳定，用户在选择时应考虑具体需求和任务类型。

❓

DeepSeek R1的训练成本仅为OpenAI最先进模型的一小部分，性价比高。

DeepSeek R1在创意写作中表现优异，尤其在老爸笑话和亚伯拉罕·林肯的故事创作中获胜。

DeepSeek R1在多个项目中表现优异，尤其在质数挑战和制定时间表的任务中胜出。

DeepSeek R1在藏头诗任务中失败，未能正确遵循指示。

DeepSeek R1在质数挑战中给出精确答案，表现突出。

整体来看，DeepSeek R1具备与OpenAI竞争的实力，打破了性价比低的刻板印象。

🏷️