小红花·文摘

本研究提出BiasLens框架，旨在解决大语言模型中的偏差问题。通过概念激活向量和稀疏自编码器，量化偏差并提取可解释的概念表示，从而提升模型的公正性和透明性。

无手动测试集评估偏差：大语言模型的概念表示视角

BriefGPT - AI 论文速递 ·

五部委联合约谈美团饿了么京东，外卖江湖风云突变，骑手权益、反垄断与算法公正性将迎最严监管风暴，行业未来何去何从？

硕鼠的博客站 ·

本文探讨了匿名化技术对机器学习公正性的影响，发现其可能降低群体公正性，但在个体公正性上有所改善。研究为隐私、公正性与效用之间的平衡提供了重要见解，并为负责任的人工智能发展提供了指导。

Fairness for Individuals and Injustice for Groups? The Impact of Auditing Anonymization on Machine Learning Fairness

BriefGPT - AI 论文速递 ·

2025年加密交易比赛的战略角色

DEV Community ·

本研究探讨人工智能模型的可靠性、公正性和可解释性，重点关注基线归因方法中的基线选择。作者提出了一种决策边界采样方法，实验结果表明该方法能够有效指导基线选择，从而提升深度模型的可靠性和信任度。

Guidelines for Choosing Baselines in XAI Attribution Methods

BriefGPT - AI 论文速递 ·

什么是模型验证，以及12种常见的正确方法

DEV Community ·

本研究提出了一种名为FairTTTS的新型后处理偏见缓解方法，旨在解决机器学习模型中的偏见问题。该方法通过调整保护属性节点的决策，提升弱势群体的公正性，并在七个数据集上验证了其显著提高公平性和准确性的效果。

FairTTTS: A Fairness-Aware Classification Tree Testing Time Simulation Method

BriefGPT - AI 论文速递 ·

本文探讨了机器学习中的虚假性，指出研究多集中于统计虚假性的传统定义，忽视了模型的实际理解。提出了关联性、泛化性、人类相似性和有害性等多维度框架，强调识别相关性对提升模型性能和公正性的重要性。

A Multidimensional Exploration of Spuriousness in Machine Learning

BriefGPT - AI 论文速递 ·

《铁拳8》中国选手遭强制退赛，万代南梦宫做法引不满

游戏研究社 ·

本文探讨了语言模型中的情感偏见，分析了敏感属性对生成文本情感的影响。研究发现，现有模型在新闻和维基百科语料库中存在显著偏见。提出了正则化方法以提高公正性，同时保持模型性能，并介绍了新的偏差测量数据集和评估框架，以更好地识别和减少语言模型中的社会偏见。

SAGED：一个全面的语言模型偏见基准测试管道，具有可定制的公平性校准

BriefGPT - AI 论文速递 ·

本研究提出了GenderCARE框架，用于减少大型语言模型中的性别偏见，并提供了新的解决方案。研究还发现了性别偏见的定义、评估和减轻方法，以及大型语言模型中的偏见存在。此外，还提出了一种无需预定义性别短语和刻板印象的条件文本生成机制来检测性别偏见。研究结果表明，不同语言中都存在显著的性别偏见。最后，通过开发GenderAlign数据集和调整语言结构，可以减轻大型语言模型中的性别偏见。

GenderCARE：评估和减少大型语言模型中性别偏见的综合框架

BriefGPT - AI 论文速递 ·

深度神经网络中的神经塌缩现象影响非线性模型和多分类问题的优化。研究表明，神经崩溃程度与隐藏层深度相关，并在多标签学习中表现出独特的“标签平均”属性。实验结果揭示了特征传播的细节，并探讨了公平性问题及其矫正方法的有效性。此外，研究还扩展了神经塌缩现象至不平衡类别和图神经网络，强调其在大型语言模型中的普遍性。

评估医学图像分类中神经崩溃的公正性

BriefGPT - AI 论文速递 ·

该研究介绍了一种新的框架，结合使用微调的BERT模型、两个刻板印象检测模型和基于词汇的方法，用于自动检测文本中的不公正。通过实证定性研究，展示了该框架在检测不公正时的应用。

使用认识论偏见作为文本中不公正性的自动检测手段

BriefGPT - AI 论文速递 ·

谷歌搜索API文档泄露，揭示了谷歌控制信息排名的特征，引发了对排名功能的公正性和权威性的质疑。

【外评】泄露API文档揭示谷歌搜索如何把守互联网大门

程序师 ·

本文综述了大型语言模型中的社会偏见评估与缓解技术，探讨了偏见的概念、评估指标和干预方法。研究表明，这些模型可能传播种族和性别等偏见，并提出了多种去偏方法和评估框架，以提高模型的公正性，减少刻板印象的负面影响。

大型语言模型偏见缓解的知识编辑视角

BriefGPT - AI 论文速递 ·

本文探讨了知识图谱注入方法对大型语言模型的影响，发现模型能够有效处理混乱的知识图谱，超越传统文本提示。同时，讨论了知识图谱中的社会偏见及其缓解技术，提出了去偏见框架和评估方法，以提高模型的公正性和安全性。

BiasKG: 用对抗知识图谱在大型语言模型中引入偏见

BriefGPT - AI 论文速递 ·

本文探讨了可解释的人工智能与公正性之间的联系，概括了八个公正性期望，并讨论了可解释的人工智能如何解决这些期望。

探索可解释人工智能 (XAI) 在 AI 生命周期中对公平性的潜力

BriefGPT - AI 论文速递 ·

该研究报告介绍了2024年计算机视觉与模式识别会议的DEF-AI-MIA研讨会中组织的DEF-AI-MIA COV19D竞赛，包括Covid-19检测和Covid-19领域适应两项挑战。竞赛使用COV19-CT-DB数据库的数据进行训练和测试，展示了基线模型的性能。

医疗图像 AI 中的领域适应、可解释性与公正性研究：基于 3D 胸部 CT 扫描的 COVID-19 诊断

BriefGPT - AI 论文速递 ·

通过 Axolotl，这一新颖的后处理框架，在不需要直接访问模型内部参数的情况下，与 LLMs 进行交互，通过类似零样本学习的三步过程识别偏见、提出解决方案并引导模型进行自我去偏差，从而降低计算成本并保持模型性能，为广泛应用和易于使用的 LLMs 去偏差工具提供了希望。

AXOLOTL: 通过协助自我消除大型语言模型输出的公正性

BriefGPT - AI 论文速递 ·

本文总结了追求人工智能系统公正性的方法和技术，提出了定义、衡量和预防人工智能偏见的实用指南，并提供了解决争议和混乱的共同语言。同时，提供了平衡权衡的实用建议，为从业者、领导和政策制定者提供讨论和指南。

公平提示：人工智能作为游戏玩家

BriefGPT - AI 论文速递 ·