评估法律推理中的测试时间扩展大型语言模型:OpenAI o1、DeepSeek-R1及其他

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究评估了9个大型语言模型在法律推理中的表现,发现DeepSeek-R1和OpenAI o1在复杂法律任务(如多被告判决和法律论证)上得分均低于80%。

🎯

关键要点

  • 本研究评估了9个大型语言模型在法律推理中的表现。

  • DeepSeek-R1和OpenAI o1在复杂法律任务上得分均低于80%。

  • 研究发现这些模型在多被告判决和法律论证推理方面存在不足。

  • 尽管在一般语言任务上表现优异,但在法律领域推理能力不足。

🏷️

标签

➡️

继续阅读