小红花·文摘

该研究介绍了ArcMMLU，一种为中文图书馆与信息科学领域定制的基准测试，旨在衡量大型语言模型在档案学、数据科学、图书馆学和信息科学四个子领域内的知识和推理能力。研究发现大多数主流LLM在ArcMMLU上的平均准确率超过50％，但仍存在性能差距，表明LLM功能仍有提升空间。ArcMMLU填补了中文LIS领域LLM评估的空白，为未来定制该专门领域的LLM的发展铺平了道路。

阿拉伯语 MMLU: 评估阿拉伯语的大规模多任务语言理解

BriefGPT - AI 论文速递 ·

ArcMMLU是一种专为中文图书馆与信息科学领域定制的基准测试，填补了中文LIS领域LLM评估的空白。研究发现，大多数主流LLM在ArcMMLU上的平均准确率超过50％，但仍存在性能差距，需要改进。ArcMMLU为未来发展铺平了道路。

CMMMU: 一个中国的大型多学科多模态理解基准

BriefGPT - AI 论文速递 ·