小红花·文摘

本文提出了JuDGE基准，旨在评估中国法律系统中判决文书生成的能力。通过构建全面的数据集和真实案例进行自动化评估，以提升文书生成质量。实验结果表明，尽管现有RAG方法有所改进，但仍需进一步优化。