小红花·文摘

本文探讨了开放的Ko-LLM排行榜在评估韩国大型语言模型中的局限性，特别是学术与实际表现之间的差距。通过引入新任务和本土化基准，提升了对韩语模型的评估质量，推动了韩国大型语言模型的发展。