本文介绍了基于CEFR的句子评估语料库和句子级评估模型,解决了级别分布不平衡问题,实验准确率达到84.5%。提出了Language-Model-as-an-Examiner框架,利用指令数据集提升模型性能,并建立了覆盖65种语言的多语言数据集,旨在弥补资源差距。研究还探讨了自动评估方法的可靠性及其在语言学习中的应用。
完成下面两步后,将自动完成登录并继续当前操作。