小红花·文摘

本文介绍了基于CEFR的句子评估语料库和句子级评估模型，解决了级别分布不平衡问题，实验准确率达到84.5%。提出了Language-Model-as-an-Examiner框架，利用指令数据集提升模型性能，并建立了覆盖65种语言的多语言数据集，旨在弥补资源差距。研究还探讨了自动评估方法的可靠性及其在语言学习中的应用。