本文提出了一种新的零-shot自动化作文评分方法——比较作文评分(LCES),旨在解决模型偏差和评分不一致的问题。通过成对比较任务,LCES 提高了评分的准确性和可扩展性,实验结果表明其优于传统评分方法。
本研究提出了一种新的联邦数据量感知加权平均方法(FedDua),旨在解决不诚实客户因报告不准数据量而导致的模型偏差问题。实验结果显示,FedDua在数据量声明不准确的情况下,全球模型性能平均提升3.17%。
本研究提出VAPO框架,解决了价值基础强化学习在长链推理中的局限性,有效应对模型偏差、序列长度和奖励稀疏问题,在AIME 2024数据集上取得了60.4的最佳成绩。
本研究探讨数据增强对机器学习模型偏差的影响,提出了一种测试偏差的方法,分析增强样本在测试集中的作用,旨在提高软件工程中模型评估的准确性,尤其是在数据稀缺的情况下。
本文提出了一种新方法,通过利用上下文信息优化深度网络训练,以解决视觉数据标注不足的问题。研究引入上下文多样性,提出数据修复算法以减少模型偏差,并建议使用类基注释应对领域转移。优化数据策略和融入人类反馈显著提升模型在复杂环境下的表现。
本文分析了FedAvg类联邦学习算法在不同客户下的收敛性,指出相关性对收敛速率的负面影响,并提出新算法CA-Fed,以平衡收敛速度与模型偏差,忽略低可用性和高相关性的客户。实验结果表明,CA-Fed在准确性和标准差上优于现有算法。
谷歌广告的成功依赖于广告的相关性。用户标记广告为“不相关”可能影响谷歌的算法,导致广告定位不准,影响广告商的表现和成本。数据操控可能引发模型偏差,影响广告效果,削弱广告生态系统的有效性。谷歌需优化模型以应对这种挑战。
研究全球气候模型中海冰厚度的模拟,发现模型在中央北极和周边海域存在偏差。使用基于卫星数据的新方法评估海冰厚度,为改进海冰模型提供了观测数据支持。需要进一步调整模型参数以更准确地反映观测数据。
本文利用卷积神经网络的权重分析来检测模型的偏差。通过玩具例子和性别识别案例研究,发现无需进行模型推理,只需查看权重即可判断模型是否存在偏差。在MNIST模型中,能够以超过99%的准确率检测出强烈或微弱的偏见,并以超过70%的准确率分类四个偏见水平。在面部模型中,实现了90%的准确率来区分针对亚洲人、黑人或白人的有偏见模型。
该研究评估了具有歧视性基础模型的偏差,并对现有的缓解这些模型偏差的方法进行了系统评估。研究者使用公平 PCA 方法进行去偏,发现其在大多数任务的去偏中效果非常好,同时只带来了轻微的性能损失。不同的去偏方法在不同的任务中的有效性有所不同。
本文介绍了一种基于模型的强化学习算法USB-PO,通过优化目标统一模型漂移和模型偏差,并制定了一种自适应微调过程,以获得性能改进保证,同时避免模型过拟合。实证结果表明,该算法在几个具有挑战性的基准任务上实现了最先进的性能。
本文介绍了一种新的FL算法CA-Fed,平衡收敛速度和模型偏差,忽略可用性低和相关性大的客户。实验结果表明,CA-Fed比现有算法具有更高的时间平均准确性和更低的标准差。
本文介绍了一种名为USB-PO的基于模型的强化学习算法,通过统一模型漂移和模型偏差,并制定了一种自适应微调过程,以获得性能改进保证,同时避免模型过拟合。实证结果表明,USB-PO在几个具有挑战性的基准任务上实现了最先进的性能。
本文研究了减轻大型语言模型毒性的策略及其对模型偏差和质量的影响。研究发现,干预策略可以优化自动指标,但会减少对边缘化团体和方言的覆盖率。强减毒干预后,人类评分员通常不同意高自动毒性得分,凸显了评估语言模型毒性的复杂性。
本文介绍了一种名为LANCE的算法,用于自动化模型应力测试。该算法利用语言引导和文本编辑技术,增加了IID测试集的多样性和挑战性,而不改变模型权重。作者对多个预训练模型进行了测试,发现它们在性能上有显著且一致的下降。此外,作者还分析了不同类型编辑对模型的敏感性,并展示了其在揭示ImageNet中未知类别级别模型偏差方面的应用。
完成下面两步后,将自动完成登录并继续当前操作。