量子位 ·

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

大模型在法律推理中的应用面临挑战，最新的LEXam基准数据集旨在评估其能力。研究表明，现有LLM在复杂法律问题，尤其是多步推理方面表现不佳。LEXam提供高质量法律考试题目，帮助深入理解LLM的能力缺陷，并引入“LLM-as-a-Judge”模式以提升评估的透明性和可靠性。

🎯

🔎

法律推理不仅涉及规则的回忆和应用，还需要对案件事实进行细致的分析。这种复杂性使得现有的大模型在处理法律问题时面临显著挑战，尤其是在多步推理和复杂规则应用的场景中。理解这些挑战有助于研究者在模型优化时更有针对性。

LEXam数据集通过提供高质量的法律考试题目，帮助研究者深入分析大模型在法律推理中的能力缺陷。其设计不仅关注最终答案的正确性，还强调推理过程的透明性和可靠性，为法律AI的评估提供了新的标准和方法。

研究表明，模型在多选题中的表现受选项数量影响显著，选项增多时准确度下降。这提示我们在使用多选题评估模型时需谨慎，避免因测试设计导致的性能高估，从而影响对模型能力的真实理解。

❓

LEXam数据集旨在评估大模型在法律推理中的能力，特别是复杂的多步推理。

现有大模型在复杂法律问题和多步推理方面表现不佳，尤其在证据检索和规则应用上存在显著缺陷。

'LLM-as-a-Judge'模式是使用大模型评估其他模型生成的法律推理步骤的质量，以提高评估的透明性和可靠性。

LEXam数据集包含4886道法律考试题目，包括2841道长篇问答题和2045道多项选择题。

专精推理优化模型在法律推理任务中表现优于通用大模型，尤其是Gemini-2.5-Pro和Claude-3.7-Sonnet表现最佳。

多选题的选项数量增加会导致模型准确度下降，模型在选项数量较多时表现明显不佳。

🏷️