小红花·文摘

本研究使用oab-bench基准评估四个大型语言模型在法律写作中的表现，结果显示Claude-3.5 Sonnet表现最佳，OpenAI的o1与人类评分相关性较强，显示其自动评判的潜力。

BriefGPT - AI 论文速递 ·

本研究提出了ING-VP基准，用于评估多模态大语言模型在空间想象和多步骤推理方面的能力。通过6种游戏和300个关卡测试，结果显示最优模型Claude-3.5 Sonnet的平均准确率仅为3.37%，揭示了当前模型在复杂空间推理和规划中的局限性。

BriefGPT - AI 论文速递 ·