评估法律推理中的测试时间扩展大型语言模型:OpenAI o1、DeepSeek-R1及其他
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究评估了9个大型语言模型在法律推理中的表现,发现DeepSeek-R1和OpenAI o1在复杂法律任务(如多被告判决和法律论证)上得分均低于80%。
🎯
关键要点
-
本研究评估了9个大型语言模型在法律推理中的表现。
-
DeepSeek-R1和OpenAI o1在复杂法律任务上得分均低于80%。
-
研究发现这些模型在多被告判决和法律论证推理方面存在不足。
-
尽管在一般语言任务上表现优异,但在法律领域推理能力不足。
🏷️