Automated Legal Writing Assessment of Large Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究使用oab-bench基准评估四个大型语言模型在法律写作中的表现,结果显示Claude-3.5 Sonnet表现最佳,OpenAI的o1与人类评分相关性较强,显示其自动评判的潜力。

🎯

关键要点

  • 大型语言模型在法律写作评估中的基准仍然稀缺。
  • 本研究引入oab-bench基准,包含105个法律问题及详细评估指南。
  • Claude-3.5 Sonnet在评估中表现最佳。
  • OpenAI的o1与人类评分相关性较强,显示其自动评判的潜力。
➡️

继续阅读