BriefGPT - AI 论文速递 ·

EvalYaks：用于自动评分 CEFR B2 口语评估文本的指令调优数据集和 LoRA 微调模型

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了基于CEFR的句子评估语料库和句子级评估模型，解决了级别分布不平衡问题，实验准确率达到84.5%。提出了Language-Model-as-an-Examiner框架，利用指令数据集提升模型性能，并建立了覆盖65种语言的多语言数据集，旨在弥补资源差距。研究还探讨了自动评估方法的可靠性及其在语言学习中的应用。

🎯

关键要点

提出了一种基于CEFR的句子评估语料库，包含17k个被划分难度级别的英文句子。
开发了句子级评估模型，解决了级别分布不平衡的问题，实验准确率达到84.5%。
提出了Language-Model-as-an-Examiner框架，利用无参考的方式评估模型的答复。
建立了覆盖65种语言的多语言数据集，旨在弥补资源差距，包含5.13亿个实例。
研究了自动评估方法的可靠性，发现其与人类评估者的相关性依赖于上下文。
基于大型语言模型的评分系统可在语言学习的自动智能教学系统中实现竞争性成果。
系统综述了指令调优中数据评估和选择方法的现有文献，并提出未来研究方向。

❓

延伸问答

EvalYaks的主要目标是什么？

EvalYaks旨在通过建立基于CEFR的句子评估语料库和模型，解决语言评估中的级别分布不平衡问题。

该研究中使用了多少个英文句子进行评估？

该研究使用了17,000个被划分难度级别的英文句子进行评估。

Language-Model-as-an-Examiner框架的作用是什么？

该框架利用无参考的方式评估模型的答复，以便更全面和公平地进行评估。

多语言数据集的规模和覆盖范围如何？

该多语言数据集覆盖65种语言，包含5.13亿个实例。

自动评估方法的可靠性如何？

自动评估方法的可靠性依赖于上下文，且与人类评估者的相关性在不同任务类型中存在变异性。

该研究对指令调优中的数据选择方法有什么贡献？

研究系统综述了现有文献，并提出了基于质量、多样性和重要性的三类数据选择方法，为未来研究提供了指导。

🏷️