小红花·文摘

本文介绍了多个中文基准测试（如CMMLU、ZhuJiu、CIF-Bench等），用于评估大语言模型（LLMs）在自然语言处理中的性能。研究表明，现有LLMs在中文任务的准确性上仍有提升空间，通过这些基准，研究者分析了模型的能力与局限性，推动了中文语言模型的评估与发展。

大型语言模型中的中文知识校正基准测试

BriefGPT - AI 论文速递 ·

本文介绍了预训练语言模型（PLMs）的最新进展，重点讨论了大型语言模型的预训练、适应、调整及评估。研究表明，现有多语言模型在中文任务上的表现不佳，并提出了新的评估基准以提升模型性能，同时探讨了未来的研究方向和挑战。

粤语自然语言处理的潜力：大型语言模型的粤语能力基准

BriefGPT - AI 论文速递 ·

本文介绍了多个针对大型语言模型（LLMs）的评估基准和新模型，包括LOT基准、LongLM模型、CritiqueLLM批判生成模型及ProxyQA框架，旨在提升长文本处理能力和生成质量。同时，研究揭示了中文任务中的评估偏差，并提出了CLongEval基准，分析了多种LLMs的性能，展示了在特定领域的应用和改进潜力。

新语：一种高效的基于大型语言模型的评论生成系统

BriefGPT - AI 论文速递 ·

本文介绍了多个针对大型语言模型（LLMs）的评估基准，如F-Eval、psybench、E-EVAL、MedBench和LHMKE，旨在评估其在法律、心理学、教育和医学等领域的能力。研究发现，尽管一些模型优于基础模型，但在复杂科目上仍存在显著差距，尤其在中文任务处理上亟需改进。

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

BriefGPT - AI 论文速递 ·