大模型在法律推理中的应用面临挑战,最新的LEXam基准数据集旨在评估其能力。研究表明,现有LLM在复杂法律问题,尤其是多步推理方面表现不佳。LEXam提供高质量法律考试题目,帮助深入理解LLM的能力缺陷,并引入“LLM-as-a-Judge”模式以提升评估的透明性和可靠性。
本研究探讨了小型语言模型(Llama 2 7B 和 Llama 3 8B)在法律推理任务中的微调方法。通过IRAC格式优化推理过程,结果表明领域特定的监督微调能使模型表现接近人类基准,并在计算资源有限的情况下依然有效。
本研究评估了9个大型语言模型在法律推理中的表现,发现DeepSeek-R1和OpenAI o1在复杂法律任务(如多被告判决和法律论证)上得分均低于80%。
本研究提出JUREX-4E知识库,解决法律推理中的四要素理论的完整性和代表性问题,涵盖155种刑事指控,显著提升大型语言模型的性能,对法律人工智能应用具有深远影响。
本研究提出了知识引导的数据生成框架KgDG,以提升法律推理任务中开源语言模型的性能。研究结果表明,KgDG生成的数据集显著提升了LawGPT的表现,超越了现有的法律专用模型,验证了该框架的有效性。
港科大与北大合作推出全球首个法律推理大模型HK-O1aw,具备深度推理能力,能够灵活应对多种法律场景,尤其在合同法和消费者权益保护法领域表现优异,提供准确的法律咨询和解决方案,提升法律服务的专业性和可靠性。
本研究分析大型语言模型在人类价值对齐中的不足,提出一种从弱到强的生成方法,实验证明其在安全性、毒性和法律推理等任务中有效提升模型输出质量和对齐性能。
本研究以涉及加密货币的证券案件为背景,研究了GPT-3.5语言模型的法律推理和起草能力。研究发现,GPT-3.5在法律推理方面较弱,但在法律起草方面表现更好。虽然无法取代律师,但这些模型的起草能力可以降低法律服务成本,为更多人提供司法公正的机会。
本研究使用真实案例的情节测试了GPT-3.5在涉及加密货币的证券案件中的法律推理和起草能力。结果显示,GPT-3.5在法律起草方面表现更好,但在法律推理能力较弱。这些模型的起草能力可以降低法律服务成本,为更多人提供司法公正的机会。
该文介绍了智能法律系统DISC-LawLLM,利用大型语言模型提供各种法律服务。作者采用法律推理提示策略构建了监督微调数据集,并使用具备法律推理能力的LLMs进行微调。通过检索模块增强了LLMs的能力,以访问和利用外部法律知识。作者提出了全面的法律评估基准DISC-Law-Eval,从客观和主观的角度评估智能法律系统。在DISC-Law-Eval上的结果表明该系统有效地为各种不同法律场景下的用户提供服务。
本研究以加密货币证券案件为背景,评估了GPT-3.5在法律推理和起草方面的能力。结果显示,GPT-3.5在法律推理方面表现较弱,但在法律起草方面表现较好。虽然无法取代律师,但这些模型的起草能力可以降低法律服务成本,为更多人提供司法公正的机会。这是第一个系统研究大型语言模型在诉讼、证券法和加密货币相关不当行为中的法律起草和推理能力的研究。
完成下面两步后,将自动完成登录并继续当前操作。