小红花·文摘

【公益译文】2026年AI指数报告（四）

绿盟科技技术博客 ·

大模型在法律推理中的应用面临挑战，最新的LEXam基准数据集旨在评估其能力。研究表明，现有LLM在复杂法律问题，尤其是多步推理方面表现不佳。LEXam提供高质量法律考试题目，帮助深入理解LLM的能力缺陷，并引入“LLM-as-a-Judge”模式以提升评估的透明性和可靠性。

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

量子位 ·

本研究探讨了小型语言模型（Llama 2 7B 和 Llama 3 8B）在法律推理任务中的微调方法。通过IRAC格式优化推理过程，结果表明领域特定的监督微调能使模型表现接近人类基准，并在计算资源有限的情况下依然有效。

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

BriefGPT - AI 论文速递 ·

本研究评估了9个大型语言模型在法律推理中的表现，发现DeepSeek-R1和OpenAI o1在复杂法律任务（如多被告判决和法律论证）上得分均低于80%。

评估法律推理中的测试时间扩展大型语言模型：OpenAI o1、DeepSeek-R1及其他

BriefGPT - AI 论文速递 ·

本研究提出JUREX-4E知识库，解决法律推理中的四要素理论的完整性和代表性问题，涵盖155种刑事指控，显著提升大型语言模型的性能，对法律人工智能应用具有深远影响。

JUREX-4E: A Knowledge Base of Four Elements Annotated by Legal Experts for Legal Reasoning

BriefGPT - AI 论文速递 ·

本研究提出了知识引导的数据生成框架KgDG，以提升法律推理任务中开源语言模型的性能。研究结果表明，KgDG生成的数据集显著提升了LawGPT的表现，超越了现有的法律专用模型，验证了该框架的有效性。

LawGPT: Knowledge-Guided Data Generation and Its Application in Large Legal Language Models

BriefGPT - AI 论文速递 ·

港科大与北大合作推出全球首个法律推理大模型HK-O1aw，具备深度推理能力，能够灵活应对多种法律场景，尤其在合同法和消费者权益保护法领域表现优异，提供准确的法律咨询和解决方案，提升法律服务的专业性和可靠性。

全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

量子位 ·

本文介绍了法律领域自然语言处理（NLP）的最新进展，包括LexGLUE基准测试、法律模型评估及其在法律推理中的应用。研究显示，尽管大型语言模型在法律任务中表现优异，但仍面临偏见和可解释性等挑战。未来研究应关注法律AI工具的改进及人本法律咨询的有效性。

基于大语言模型的法律决策支持系统与社交媒体证据分析

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在法律领域的应用与评估，特别是在法律文本理解和案例检索方面的挑战与进展。研究表明，LLMs在法律推理和论点提取上表现优异，但仍存在偏见和可解释性的问题。提出了多智能体框架以增强法律推理能力，并展望未来的研究方向。

法律论证推理：欧洲人权法院案件的新法律论证推理任务和数据集

BriefGPT - AI 论文速递 ·

本研究分析大型语言模型在人类价值对齐中的不足，提出一种从弱到强的生成方法，实验证明其在安全性、毒性和法律推理等任务中有效提升模型输出质量和对齐性能。

超越准确性的弱到强泛化：安全性、毒性和法律推理的初步研究

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在法律领域的应用，包括税法、法律推理和判决预测。研究指出LLMs在法律任务中的潜力与挑战，如隐私、偏见和可解释性问题。通过强化学习和新方法，LLMs可提高法律信息的准确性和可访问性，推动法律技术的发展。

大型语言模型能否理解法律理论？通过多智能体协作提升法律推理能力

BriefGPT - AI 论文速递 ·

本文探讨了应答集编程（ASP）在心理学和法律领域的知识形式化应用，提升理论研究的准确性。通过形式化短期记忆机制和自动法律推理，提出新的编码模式和框架，以解决复杂问题并增强可解释性。

基于答案集编程的学习规章推理

BriefGPT - AI 论文速递 ·

我们提出了DISC-LawLLM，一个智能法律系统，利用大型语言模型（LLMs）提供法律服务。通过法律推理提示策略和微调数据集，我们增强了LLMs的能力，并建立了法律评估基准DISC-Law-Eval，以验证系统在不同法律场景中的有效性。

DiscipLink: 人工智能与人类协同探索揭示跨学科信息搜索过程

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（如GPT-3.5和GPT-4）在法律推理和文书起草中的能力。结果显示，模型在法律推理方面较弱，但在法律文书起草上表现良好。尽管无法替代律师，模型仍能降低法律服务成本，促进司法公正。研究还指出模型在道德判断和偏见方面的表现差异，强调领域专业知识在模型训练中的重要性。

法学思维，算法决策：LLM 在复杂情景中应用宪法原则

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在法律推理中的应用，强调生成式模型与人类分析结合的有效性。研究构建了包含马来西亚合同法和澳大利亚社会法的语料库，采用IRAC方法评估LLMs的法律分析能力，结果显示其与法律专家的分析一致性较高。此外，研究提出了基于LLMs的基准测试，呼吁法律与计算机科学界的合作，以提升LLMs在法律领域的表现。

桥接法律与数据：通过 IRAC 方法增强推理的半结构化数据集

BriefGPT - AI 论文速递 ·

本文评估了大型语言模型（LLMs）在法律领域的应用，特别是在法律推理和起草方面的能力。研究表明，GPT-3.5在法律起草中表现良好，但推理能力较弱，无法完全替代律师。同时，通过对阿拉伯法律分析和机器翻译的研究，强调了LLMs在处理专业法律术语方面的潜力，并呼吁改进评估方法。

使用大型语言模型自动提取雇佣仲裁判决中的信息

BriefGPT - AI 论文速递 ·

本研究以涉及加密货币的证券案件为背景，研究了GPT-3.5语言模型的法律推理和起草能力。研究发现，GPT-3.5在法律推理方面较弱，但在法律起草方面表现更好。虽然无法取代律师，但这些模型的起草能力可以降低法律服务成本，为更多人提供司法公正的机会。

利用 GPT 编织司法之路：基于 LLM 的交互式法律应用自动起草

BriefGPT - AI 论文速递 ·

通过大型语言模型增强人类说服能力

BriefGPT - AI 论文速递 ·

本研究使用真实案例的情节测试了GPT-3.5在涉及加密货币的证券案件中的法律推理和起草能力。结果显示，GPT-3.5在法律起草方面表现更好，但在法律推理能力较弱。这些模型的起草能力可以降低法律服务成本，为更多人提供司法公正的机会。

该文介绍了智能法律系统DISC-LawLLM，利用大型语言模型提供各种法律服务。作者采用法律推理提示策略构建了监督微调数据集，并使用具备法律推理能力的LLMs进行微调。通过检索模块增强了LLMs的能力，以访问和利用外部法律知识。作者提出了全面的法律评估基准DISC-Law-Eval，从客观和主观的角度评估智能法律系统。在DISC-Law-Eval上的结果表明该系统有效地为各种不同法律场景下的用户提供服务。

DISC-LawLLM：面向智能法律服务的大型语言模型微调

BriefGPT - AI 论文速递 ·

【公益译文】2026年AI指数报告（四）

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

A Study on Supervised Fine-Tuning of Small Language Models for Legal Reasoning in the Multi-State Bar Exam

评估法律推理中的测试时间扩展大型语言模型：OpenAI o1、DeepSeek-R1及其他

JUREX-4E: A Knowledge Base of Four Elements Annotated by Legal Experts for Legal Reasoning

LawGPT: Knowledge-Guided Data Generation and Its Application in Large Legal Language Models

全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

基于大语言模型的法律决策支持系统与社交媒体证据分析

法律论证推理：欧洲人权法院案件的新法律论证推理任务和数据集

超越准确性的弱到强泛化：安全性、毒性和法律推理的初步研究

大型语言模型能否理解法律理论？通过多智能体协作提升法律推理能力

基于答案集编程的学习规章推理

DiscipLink: 人工智能与人类协同探索揭示跨学科信息搜索过程

法学思维，算法决策：LLM 在复杂情景中应用宪法原则

桥 接 法律 与 数据：通过 IRAC 方法增强 推理的 半结构化 数据 集

使用大型语言模型自动提取雇佣仲裁判决中的信息

利用 GPT 编织司法之路：基于 LLM 的交互式法律应用自动起草

通过大型语言模型增强人类说服能力

对法律判决预测的大型语言模型的全面评估

DISC-LawLLM：面向智能法律服务的大型语言模型微调

桥接法律与数据：通过 IRAC 方法增强推理的半结构化数据集