大多数大型语言模型(LLM)基准测试主要集中在英语,无法准确评估其他语言(如德语)的表现。为此,作者开发了ML•LLM基准,分为逻辑和非逻辑两部分。结果显示,Grok在逻辑部分表现最佳,而在非逻辑部分,Grok3 Think等四个模型表现突出。总体来看,Grok领先,OpenAI和Google逐渐进步,但仍需改进。
完成下面两步后,将自动完成登录并继续当前操作。