DEV Community ·

Deepseek R1与OpenAI o1-preview对比

💡 原文英文，约1000词，阅读约需4分钟。

📝

内容提要

Deepseek R1模型发布，采用671B MoE架构，推理表现优于其他模型。尽管在棋局中取得了一定胜利，但仍存在指令遵循和错误回复的问题。与OpenAI的o1模型相比，R1在表现和平局数量上不够理想。

🎯

🔎

Deepseek R1模型在推理表现上优于许多其他模型，尤其是在棋局中取得了一定的胜利。然而，其胜率和平局率与OpenAI的o1模型相比仍显不足，显示出R1在指令遵循和错误回复方面存在明显的局限性。用户在使用时需注意这些潜在问题，尤其是在需要高准确度的应用场景中。

在对比Deepseek R1与OpenAI o1模型时，R1的表现虽然有所提升，但仍未达到行业领先水平。特别是在棋局中，R1的平局数量较少，表明其在复杂指令处理上的不足。用户在选择模型时，应考虑具体应用需求，尤其是对推理能力的要求。

Deepseek推出的多个小型R1蒸馏版本在性能上未能达到预期，显示出蒸馏模型在推理能力上的不足。这提醒用户在选择模型时，不仅要关注模型的大小，还要考虑其实际表现，避免因追求轻量化而牺牲性能。

❓

Deepseek R1模型采用671B MoE架构。

Deepseek R1的胜率为22.58%，平局率为19.35%，但错误回复率较高。

与OpenAI的o1模型相比，R1在表现和平局数量上不够理想。

R1存在指令遵循和错误回复的问题，可能会违反指令或出现幻觉走法。

Deepseek还推出了多个小型的R1蒸馏版本，但表现不佳。

Gemini Thinking模型在R1发布后进行了更新，表现有所改善，能够持续进行约40步的游戏。

🏷️