评估法律推理中的测试时间扩展大型语言模型:OpenAI o1、DeepSeek-R1及其他
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究评估了9个大型语言模型在法律推理中的表现,发现DeepSeek-R1和OpenAI o1在复杂法律任务(如多被告判决和法律论证)上得分均低于80%。
🎯
关键要点
- 本研究评估了9个大型语言模型在法律推理中的表现。
- DeepSeek-R1和OpenAI o1在复杂法律任务上得分均低于80%。
- 研究发现这些模型在多被告判决和法律论证推理方面存在不足。
- 尽管在一般语言任务上表现优异,但在法律领域推理能力不足。
➡️