BenCzechMark:一个以捷克为中心的多任务多指标大型语言模型基准测试
📝
内容提要
本研究提出了BenCzechMark(BCM),这是首个专为大型语言模型设计的捷克语言基准测试,涵盖多样化的任务和评价指标。创新地采用了基于统计显著性理论的评分系统,提供50个具有挑战性的任务,旨在推动捷克语言处理的研究与应用。研究结果有望提高捷克语模型的性能,并为相应的多语种模型提供比较基准。
➡️