机器学习和人工智能系统依赖人工标注数据,但标注错误会影响模型性能。本文介绍了一种预测错误模型,用于检测音乐、视频流媒体和移动应用中的搜索相关性标注错误。模型在不同应用中表现良好(AUC=0.65-0.75),有效提高标注效率和质量。研究表明,该模型在数据标注过程中显著提升效率和质量,提供了有效的错误管理方法。
本研究探讨了命名实体识别(NER)的标注错误问题,提出了CrossWeigh框架和混合标注方法,结合人力与大型语言模型,提高了NER模型性能。实验结果表明,该方法在多个数据集上表现优越,有效解决了传统标注中的噪音和类别不平衡问题。
完成下面两步后,将自动完成登录并继续当前操作。