基于多样性的大型语言模型的数据质量提升用于文本分类:不可发现的、困难的和嘈杂的数据
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了一种基于大型语言模型的数据质量提升方法(DQE),旨在提高文本分类的准确率。通过贪婪算法选择样本进行微调,并对未采样数据进行预测,成功将错误分类的数据分为不可发现、困难和嘈杂的数据。实验结果表明,该方法显著提升了模型性能,并节省了近一半的训练时间。
🎯
关键要点
- 本研究提出了一种基于大型语言模型的数据质量提升方法(DQE),旨在提高文本分类的准确率。
- 通过贪婪算法选择样本进行微调,并对未采样数据进行预测。
- 错误分类的数据被分为不可发现、困难和嘈杂的数据。
- 实验结果表明,该方法显著提升了模型性能,并节省了近一半的训练时间。
➡️