大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

虽然LLM在推理类任务上进展显著，但在更为复杂与微妙的法律领域，这类模型的实际表现仍然存在很大的未知和诸多疑问

大模型在法律推理中的应用面临挑战，最新的LEXam基准数据集旨在评估其能力。研究表明，现有LLM在复杂法律问题，尤其是多步推理方面表现不佳。LEXam提供高质量法律考试题目，帮助深入理解LLM的能力缺陷，并引入“LLM-as-a-Judge”模式以提升评估的透明性和可靠性。

LEXam ai 多步推理大模型法律推理评估