小红花·文摘

本研究提出了LegalAgentBench基准，用于评估法律领域LLM代理的性能。该基准结合17个语料库和37个工具，构建了300个任务，揭示了模型的优缺点及改进潜力。