小红花·文摘

数据分析与建模中常见的陷阱及避免方法

freeCodeCamp.org ·

构建人工智能驱动的网络安全解决方案

DEV Community ·

本文介绍了低训练数据指令调优（LTD Instruction Tuning）方法，旨在减少大型语言模型（LLMs）指令调优的数据使用，提高效率。研究表明，使用少于0.5%的数据可训练出性能提升2%的模型。此外，提出顺序指令调整策略以增强模型在复杂任务中的表现，并探讨了数据偏差对模型性能的影响，提出分阶段指令微调方法以提高指令遵循能力。

SFTMix：通过Mixup法提高语言模型的指令调优

BriefGPT - AI 论文速递 ·

本文探讨了无偏学习排序（ULTR）技术在点击预测和排序性能中的应用，提出多种算法和模型以消除数据偏差，提升排序效果。研究表明，尽管在点击预测中表现优异，但在专家相关性标注中未必能改善排名，强调了评估方法的重要性。

含上下文的双重学习算法与列表蒸馏用于无偏学习排序

BriefGPT - AI 论文速递 ·

本文探讨了过去50年公平概念在教育和招聘中的演变，比较了机器学习中的公平标准，提出了数据修复算法和偏见检测工具以解决数据偏差问题，强调了模型对数据分布的鲁棒性及公平性评估的重要性，并提出了改进深度学习模型公平性的建议。

上下文的重要性：对深度学习系统公平性测试中上下文影响的实证研究

BriefGPT - AI 论文速递 ·

本文探讨了表现性预测在社会分类中的应用，提出了一种分类法以解决数据偏差和群体公平问题。研究分析了表现性预测的影响，强调了自我实现与自我否定的机制，并提出了稳定分类器的执行预测框架，以优化风险和提高样本效率。

解决表现预测中的极化和不公平问题

BriefGPT - AI 论文速递 ·

本研究探讨了计算机视觉中的数据偏差问题，提出了使用归因地图、对抗性训练和前景引导分类器等方法来减轻模型偏见。研究表明，这些方法在不同数据集上有效提高了模型的公正性和准确性，尤其在性别偏见和主体目标识别方面表现突出。

利用独立于模型的数据归因来减少偏见

BriefGPT - AI 论文速递 ·

本文探讨了因果推断和去偏方法在改善机器学习模型性能中的应用，特别是针对虚假相关性和数据偏差。提出了R2R和XCR等框架，旨在提升模型的公平性和准确性，并通过实证研究验证了其有效性。

反应性模型修正：通过条件偏差抑制缓解对任务相关特征的危害

BriefGPT - AI 论文速递 ·

该研究利用机器学习分析糖尿病患者的医疗数据，探索风险因素并进行预测。结果表明，C4.5决策树和随机森林算法在准确性上优于其他方法。同时，研究探讨了深度学习、连续血糖监测和智能健康系统在糖尿病检测中的应用，强调消除数据偏差以提高预测的公平性和准确性。

深度学习在糖尿病诊断中的应用

BriefGPT - AI 论文速递 ·

该研究提出了使用无偏学习排序（ULTR）训练基于偏差点击日志的无偏排序模型，并采用节点干预和节点合并两种方法来修正数据集并恢复图连通性，以解决从点击数据恢复真实相关性的问题。实证结果验证了该方法的有效性，并证明了在相关性模型不可辨识时该方法在减轻数据偏差方面的有效性。

识别性问题：揭示偏向的学习排序中隐藏的可恢复条件

BriefGPT - AI 论文速递 ·