本研究使用oab-bench基准评估四个大型语言模型在法律写作中的表现,结果显示Claude-3.5 Sonnet表现最佳,OpenAI的o1与人类评分相关性较强,显示其自动评判的潜力。
完成下面两步后,将自动完成登录并继续当前操作。