乱世浮生 ·

价格差了 20 倍，效果却差得有限：大模型的价格墙正在松动

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

大模型的价格差异正在缩小，MiniMax M3在代码审计中以$0.07发现13个问题，而Claude Opus 4.8最贵档次花费$3.39仅发现15个问题。测试表明，推理强度与发现问题数量并不总成正比，MiniMax M3在主要安全问题上表现优异，适合预算有限的审计任务。选择模型时应根据具体需求，便宜模型的能力正在快速提升。

🎯

关键要点

MiniMax M3以$0.07找到13个问题，而Claude Opus 4.8最贵档次花费$3.39仅发现15个问题。
测试表明，推理强度与发现问题数量并不总成正比，MiniMax M3在主要安全问题上表现优异。
Kilo的测试设计排除了干扰变量，确保了结果的可比性。
Claude Opus 4.8的推理强度不同档次之间的表现并不一致，medium和high档次的发现问题数量相同。
MiniMax M3漏掉了一些较小的问题，但抓住了所有主要安全隐患，适合预算有限的审计任务。
便宜模型的能力正在快速提升，逐渐接近专有模型的能力边界。
选择模型时应根据具体需求，MiniMax M3适合快速安全扫描，而Claude Opus 4.8 xhigh适合需要完整报告的场景。

🔎

延伸解读

模型选择的实用框架

Kilo的测试为模型选择提供了实用的决策框架。对于预算有限或需要快速审计的任务，MiniMax M3是理想选择，能够以低成本覆盖主要安全问题。而对于需要更全面报告的场景，Claude Opus 4.8的xhigh档次则更为合适。不同任务对覆盖率和成本的权衡不同，选择时应明确需求。

推理强度与发现问题的关系

Claude Opus 4.8的推理强度并未呈现线性提升，medium和high档次的发现问题数量相同，说明提高推理强度并不一定能提高发现问题的能力。这一发现提示用户在选择模型时，不必盲目追求高推理强度，而应关注实际需求和性价比。

便宜模型的快速进步

测试结果显示，便宜模型如MiniMax M3正在迅速接近专有模型的能力边界。这一趋势意味着开发者在选择模型时，能够获得更多性价比高的选项，打破了过去“贵的就是好的”这一传统观念。随着市场上选择的增多，开发者应重新评估自己的需求。

❓

延伸问答

MiniMax M3和Claude Opus 4.8在代码审计中的表现如何？

MiniMax M3以$0.07发现13个问题，而Claude Opus 4.8最贵档次花费$3.39仅发现15个问题。

为什么MiniMax M3适合预算有限的审计任务？

MiniMax M3在主要安全问题上表现优异，且费用低，仅需$0.07即可发现大部分重要问题。

Claude Opus 4.8的推理强度对发现问题的影响如何？

Claude Opus 4.8的不同推理强度之间的表现并不一致，medium和high档次发现的问题数量相同。

在选择代码审计模型时应考虑哪些因素？

选择模型时应根据具体需求，如预算、审计的全面性和报告的详细程度来决定。

MiniMax M3漏掉了哪些问题？

MiniMax M3漏掉了无效JSON返回、数据库初始化代码执行时机不当和async callback在synchronous transaction中的问题。

便宜模型的能力提升速度如何？

便宜模型的能力正在快速提升，逐渐接近专有模型的能力边界，且提升速度快于价格下降的速度。

🏷️