LexEval:评估大型语言模型的综合中文法律基准
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对现有大型语言模型在法律应用中的准确性、可靠性和公平性不足的问题,提出了一个新的中文法律评估基准LexEval。该基准不仅涵盖了23个任务和14,150个问题,还引入了一种新的法律认知能力分类法,全面评估LLMs,并探讨了其应用中的伦理问题。研究发现对中国法律系统的发展和LLM评估管道提供了重要的见解。
InternLM-Law是专为中国法律问题设计的大型语言模型,基于超100万法律查询数据集。通过两阶段微调提升性能,在LawBench测试中20个子任务中13个超越先进模型。模型和数据集已公开,推动法律研究。