本研究探讨了问答和阅读理解基准中的偏见问题,指出其在不同人群和地区的代表性不足,呼吁在基准创建中关注偏见,以促进公平的大语言模型发展。
2025年4月5日,亚当森大学的AWS云俱乐部举办了“她的时代”活动,旨在提升女性在科技领域的地位。活动包括演讲和创意马拉松,强调性别多样性的重要性,并分享女性在男性主导行业中的挑战与成功故事,推动女性在科技行业的参与。
Angle Bush创立了“黑人工智能女性协会”(BWIAI),旨在提升黑女性在人工智能领域的代表性。该协会自2019年成立以来,已在五大洲聚集成员,提供学习资源和职业评估,促进多样性与创新。
本研究解决了医学图像分割中有效选择训练子集的问题,尤其是在最小监督设置下,随机选择训练集可能导致模型性能不佳。我们提出了一种新的基于原型对比学习和聚类的样本选择方法,并引入无监督平衡批次数据加载,以提高模型在最少标注数据下的学习效果。在ISIC 2018公开皮肤病变数据集上的评估结果显示,我们的方法在低标注预算情境下表现优异。
尽管代表性样本在理论上可行,但用户行为复杂多变,难以全面反映真实情况。遥测提供大规模、实时的数据,捕捉细节和边缘案例,帮助开发者优化软件性能。因此,遥测在现代软件开发中不可或缺,同时需关注用户隐私。
本研究针对大型语言模型(LLMs)在政治问题上的人类意图与价值对齐的难题进行探讨,填补了LLMs偏离经验立场的原因及条件研究的空白。采用认知科学中的代表性启发式理论,实验结果表明,LLMs在模仿特定政党的立场时,常常比人类受访者更夸大这些立场,揭示了LLMs对政治刻板印象的脆弱性,并提出了有效的基于提示的干预策略,以减少代表性对LLMs响应的影响。
本研究提出“完全比例合理代表性”(FPJR)概念,旨在解决多赢家批准投票中的选票代表性问题。FPJR兼顾“凝聚性”和“代表性”,满足多项比例公理,并与高效规则兼容,能够在不同情况下提供高效的代表性,对选举和决策系统具有重要影响。
本研究提出了一种新型主动采样算法(ATS),用于恢复图分析中的缺失节点属性。该算法通过评估节点信息的代表性和不确定性,展现出优越性,具有实际应用潜力。
随着年末临近,我们更新了关于代表性和包容性的工作。作为全球公司,我们需要员工和合作伙伴反映客户的多样性。我们评估了内部项目,专注于有效方案以消除差距,建立包容文化。计划在2024年底前整合现有流程,淘汰过时项目,并继续投资于员工成长和包容体验。
本研究解决了在科学信息提取中由训练数据不足和高昂标注成本引发的挑战,提出了一种新的混合选择方法STAYKATE。该方法结合了主动学习中的代表性采样原理和基于检索的方法,研究结果显示STAYKATE在性能上显著优于传统的监督方法和现有选择方法,尤其对其他方法难以处理的实体类型表现更佳。
本研究提出了协作框架DataTailor,以解决视觉指令数据集扩展中的冗余和高成本问题。实验结果表明,仅使用15%的数据即可实现全数据微调性能的100.8%,有效降低了计算成本。
本研究解决了因缺乏分组信息而导致的,在识别少数群体时面临的困境。我们提出了一种"少数群体挖掘"问题,并通过几何变换和超平面排列的概念,设计了高效算法来发现潜在的代表性不足和表现不佳的群体。实验结果表明,我们的方法在挖掘这些未知少数群体方面具有显著的有效性。
本文介绍了一种新方法,通过马尔可夫决策过程量化AI系统与人类价值观的一致性,旨在帮助开发者和伦理学家设计符合人类价值观的AI系统,适用于推荐系统和自动驾驶等领域。
本研究分析了在线新闻中不同种族和性别群体的表现频率及背景,发现这些群体代表性不足且常被边缘化,揭示了新闻报道中的种族和性别偏见。
本研究解决了传统方法需要大规模数据集和广泛统计分析的问题,提出了一种利用双点相关函数从单张2D或3D图像直接估计微观结构特性方差的新方法。该方法显著降低了进行代表性分析的数据需求,并为材料科学家和工程师提供了实用的工具,促进了在微观结构数据有限的情况下进行相应的相分数预测。
本研究提出了一种高性价比的方法,解决双语大型语言模型在英语与其他语言间支持不足的问题。通过扩大词汇量和新嵌入初始化,显著提升了生成文本质量,促进了对低代表性语言的公平支持。
本研究解决了文本到图像生成系统中存在的可代表性偏见问题,提出了一个评估框架,关注多样性、包容性和质量三个方面。研究结果表明,该框架能够有效捕捉偏见,同时人类基础方法与模型基础方法之间在大部分组件中具高相关性,这有望降低成本并实现自动化。
本研究提出了一种新框架,将主动学习与聚类结合,解决大型语言模型在安全关键场景中生成数据的偏差和代表性不足问题。结果表明,该框架能有效构建更具代表性的安全场景数据集,提高模型准确性和F1分数,适用性广泛。
本研究提出了一个来自TalkBank的多语言对话数据集,解决了现有自动语音识别(ASR)基准未能反映现实对话环境复杂性的问题。研究发现在此对话环境下,主流ASR模型性能显著下降,并揭示了语音不流畅性与词错误率之间的相关性,强调了建立更真实对话基准的必要性。
通过实验和数学推导,展示了数据选择可以非常有效,甚至可以击败在整个样本上进行训练。某些常见的数据选择方法可能不够优化。
完成下面两步后,将自动完成登录并继续当前操作。