Automated Legal Writing Assessment of Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究使用oab-bench基准评估四个大型语言模型在法律写作中的表现,结果显示Claude-3.5 Sonnet表现最佳,OpenAI的o1与人类评分相关性较强,显示其自动评判的潜力。
🎯
关键要点
- 大型语言模型在法律写作评估中的基准仍然稀缺。
- 本研究引入oab-bench基准,包含105个法律问题及详细评估指南。
- Claude-3.5 Sonnet在评估中表现最佳。
- OpenAI的o1与人类评分相关性较强,显示其自动评判的潜力。
➡️