小红花·文摘

本研究使用oab-bench基准评估四个大型语言模型在法律写作中的表现，结果显示Claude-3.5 Sonnet表现最佳，OpenAI的o1与人类评分相关性较强，显示其自动评判的潜力。