量子位 ·

龙虾最佳适配模型，OpenClaw之父给出了推荐

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

PinchBench榜单显示，中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。尽管价格较高，该榜单为模型选择提供了明确参考。PinchBench由Kilo AI团队开发，专注于真实任务的评测。

🎯

关键要点

PinchBench榜单专为龙虾模型评测，关注成功率、速度和价格。
中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。
榜单显示，谷歌Gemini 3 Flash成功率最高，MiniMax M2.1和Kimi K2.5紧随其后。
MiniMax M2.5在速度上领先，完成任务速度提升37%。
国产模型在价格上相对较高，MiniMax M2.1的价格几乎是GPT-5-nano的3倍。
PinchBench由Kilo AI团队开发，专注于真实任务的评测，采用自动化检查和LLM评审的组合方式。
PinchBench的评测机制强调模型在真实工作流中的执行能力，而不仅仅是回答问题。
PinchBench目前是完全开源的，用户可以自行运行或添加新任务。

🏷️

继续阅读

文远知行与吉利远程深化战略合作，2026年交付2000台前装量产Robotaxi GXR
文远知行与吉利远程深化合作，计划到2026年交付2000台Robotaxi GXR，推动全球商业化进程。新车型将采用先进的自动驾驶技术，提升安全性和可靠性...
苹果官宣核心管理层调整；英伟达停产向中国销售H200芯片；安世荷兰批量禁用安世中国员工办公软件
苹果调整管理层，英伟达停产H200芯片，安世禁止中国员工使用办公软件，腾讯推出OpenClaw引发用户排队，甲骨文计划裁员。
龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
广和通在MWC 2026推出全新GNSS解决方案
广和通在MWC 2026上宣布将深化GNSS战略，推出多种定位模组及解决方案，支持两轮车和资产追踪等应用，提供精准高效的定位服务。新模组预计于2026年4月送样。
88岁图灵奖得主，用Claude一小时破解30年数学悬案
88岁图灵奖得主高德纳对Claude AI在1小时内解决他研究30年的三维图论问题感到震惊。Claude通过结构性思维而非暴力搜索，展现了逻辑推理和创造性...
arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合
arXiv创始人Paul Ginsparg参与研究AI生成的“水论文”，测试了13个大语言模型的造假能力。结果显示，Claude模型最为守规，而Grok和...

龙虾最佳适配模型，OpenClaw之父给出了推荐

内容提要

关键要点

标签

继续阅读