小红花·文摘

关于肥胖的杂谈

極客死亡計劃 ·

通过核心指代解析中的信心差异研究大型语言模型中的交叉偏见

Apple Machine Learning Research ·

人工智能的人文视野

DEV Community ·

本研究提出了一种新方法，通过识别嵌入空间中的语义方向向量，将文本嵌入限制在安全区域，以应对扩散模型生成不安全内容和社会偏见的问题。该方法增强了模型对潜在不安全提示的鲁棒性，并在多个基准数据集上显著减少了NSFW内容和社会偏见。

Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions

BriefGPT - AI 论文速递 ·

本研究探讨了维基数据知识表示中的社会偏见，特别是在链接预测任务中对少数群体的影响。提出的AuditLP框架利用公平性指标识别性别和年龄偏见，发现偏见结果与全球北方和南方的社会经济文化分区相关。

Social Biases in Knowledge Representations of Wikidata Separate Global North from Global South

BriefGPT - AI 论文速递 ·

揭示人工智能中的偏见：FairCode基准用于代码生成

DEV Community ·

本研究提出了FairCode基准，用于评估代码生成中的社会偏见。结果表明，所有测试的大型语言模型均存在偏见，强调了评估其社会偏见的重要性。

Fair Code: Assessing Social Bias in Code Generation of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种局部反事实生成方法，旨在减少基础模型中的社会偏见。通过自动遮罩和引导修复，限制反事实修改在特定属性区域，保持图像上下文，提高性别反事实的视觉和语义保真度。这为创建平衡数据集提供了框架，以便进行准确的偏见分析和有效的缓解。

Pinpoint Counterfactuals: Reducing Social Bias in Foundation Models via Localized Counterfactual Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种扩展BBQ数据集的方法，以评估大型语言模型在开放情境中的社会偏见。结果显示，模型对特定特征（如年龄和社会经济地位）存在偏见，但通过结合零-shot、少量样本和思维链的方法，可以显著降低这些偏见。

Evaluating and Mitigating Social Biases of Large Language Models in Open Environments

BriefGPT - AI 论文速递 ·

本研究提出了一种弯曲VLM方法，旨在解决视觉语言模型嵌入中的社会偏见问题。该方法无需微调，能够根据输入动态调整去偏见操作，从而提升灵活性和适用性。

Curved Vision-Language Models: Debiasing Visual-Language Embeddings at Inference

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在上下文学习中的公平性和性能问题，提出了一种选择最佳示范的算法以提高学习效果。实验表明，模型在处理表格数据时可能继承社会偏见，提出了优化样本选择的方法以增强公平性。此外，研究还探讨了因果关系在提高模型可信度中的应用。

通过潜在概念变量实现公平的上下文学习

BriefGPT - AI 论文速递 ·

两项研究表明大型语言模型（LLMs）在模拟心理变化和政治行为方面具有潜力。第一项研究发现LLMs能有效模拟虚假真相效应，第二项研究探讨了民粹主义新闻框架的影响。研究指出LLMs在模拟人类群体动态时存在局限性，尤其在政治辩论中可能表现出固有的社会偏见，整体上倾向于左翼观点，并在预测公众舆论时存在偏差，强调了谨慎使用LLMs的必要性。

隐藏的劝说者：大型语言模型的政治倾向及其对选民的影响

BriefGPT - AI 论文速递 ·

本研究提出关注指令调优（FIT）方法，旨在解决大型语言模型（LLMs）在不同上下文中因伪特征和偏见特征导致的不良行为。FIT通过专注于特定特征，提高模型的鲁棒性，减少社会偏见，确保在新环境中的表现，从而推动LLM的稳健性、公平性和可控性。

Focus on This, Not That! Steering Large Language Models with Adaptive Feature Specification

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在选举模拟和公众舆论预测中的应用。研究发现，LLMs在模拟选民行为时存在偏差，尤其在不同政治环境中表现不一。通过分析推特数据和选举结果，研究表明LLMs在预测个体和整体偏好方面具有潜力，但也存在固有的社会偏见，需谨慎应用于民主进程中。

ElectionSim：由大型语言模型驱动的庞大人口选举模拟

BriefGPT - AI 论文速递 ·

本研究提出了文本到图像生成技术的内容管理框架，强调安全、公平和量化危害的重要性。通过分析隐式对抗提示，识别T2I模型的安全问题，并开发了AEGISSAFETYDATASET和AEGIS方法来评估模型的安全性能。此外，研究揭示了AI生成文本中的社会偏见，推动了AI伦理学的发展。

多模态安全感知中的分歧模式洞察：来自多样化评估组的研究

BriefGPT - AI 论文速递 ·

本文探讨了口吃障碍的分类方法，利用声学特征、深度学习和统计学填补研究空白。分析了环境噪音对机器学习模型的影响，提出了改进口吃检测系统的数据分割策略，并探讨了自动化失语症评估的潜力。同时，研究关注了机器学习在喉癌检测中的应用及其统计效力，强调了社会偏见对大型语言模型的影响。

机器能否区分语音中的高低社交裂纹

BriefGPT - AI 论文速递 ·

本文探讨大型语言模型（LLMs）中的社会偏见，特别是在政治、宗教和性别方面的表现。研究发现，LLMs在模拟人类互动时存在固有偏见，且即使经过微调，偏见依然显著。提出了一种新方法，通过多角色情境和公正裁判角色来减少偏见，实验结果表明该方法有效提升了LLMs的偏见识别能力，强调了开发更伦理的AI系统的重要性。

镜子中的偏见：大型语言模型的观点是否对自身的对抗攻击稳健？

BriefGPT - AI 论文速递 ·

该研究探讨了深度学习生成文本中的社会偏见，发现机器生成的文本在多个领域比人类撰写的文本更具偏见。研究提出了新的偏差测量数据集和评估框架，强调在评估大型语言模型的公平性时需谨慎，尤其是在经济偏见和人口属性方面。研究结果表明，偏见在不同模型中普遍存在，呼吁采取有效的偏见缓解技术。

评估大型语言模型开放式生成偏见的指标模型偏见基准

BriefGPT - AI 论文速递 ·

本研究分析预训练语言模型中的社会偏见问题，发现去偏见后模型的词语表示对齐度下降。提出了一种微调方法，提升去偏见的公平性，同时保持自然语言理解任务的性能。

降级语言模型促进公平性

BriefGPT - AI 论文速递 ·

本研究分析了大型语言模型（LLMs）在仇恨言论生成解释中的表现，发现其解释在流畅性和逻辑性上评价较高，但不同提示策略会影响说服力，可能导致错误判断。同时，研究探讨了LLMs中的社会偏见，强调在内容审核中需谨慎使用这些模型，以避免强化刻板印象。

仇恨具象化：探讨大型语言模型在内容审查中的角色

BriefGPT - AI 论文速递 ·