评估法律推理中的测试时间扩展大型语言模型:OpenAI o1、DeepSeek-R1及其他

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究评估了9个大型语言模型在法律推理中的表现,发现DeepSeek-R1和OpenAI o1在复杂法律任务(如多被告判决和法律论证)上得分均低于80%。

🎯

关键要点

  • 本研究评估了9个大型语言模型在法律推理中的表现。
  • DeepSeek-R1和OpenAI o1在复杂法律任务上得分均低于80%。
  • 研究发现这些模型在多被告判决和法律论证推理方面存在不足。
  • 尽管在一般语言任务上表现优异,但在法律领域推理能力不足。
➡️

继续阅读