法律智能代理基准:评估法律领域的LLM代理
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了LegalAgentBench基准,用于评估法律领域LLM代理的性能。该基准结合17个语料库和37个工具,构建了300个任务,揭示了模型的优缺点及改进潜力。
🎯
关键要点
- 本研究提出了LegalAgentBench基准,专门用于评估法律领域LLM代理的性能。
- 该基准结合了17个真实法律场景的语料库和37个工具。
- 构建了300个精心标注的任务,以多层次的方式评估模型性能。
- 揭示了当前模型的优缺点及其改进潜力。
➡️