小红花·文摘

本文探讨了大型语言模型中的偏见问题，提出了一种可扩展的基准框架，通过多任务方法检测社会文化维度的偏见，并利用大型语言模型进行自动评估。研究揭示了模型大小与安全性之间的权衡，为未来更公平的语言模型发展提供指导。

Benchmarking Adversarial Robustness to Bias in Large Language Models: Scalable Automated Assessment Using LLM as a Judge

BriefGPT - AI 论文速递 ·

本研究提出VerbDiff模型，旨在解决文本到图像扩散模型在生成交互图像时的偏见问题。该模型能够更好地捕捉语义，生成高质量图像，实验结果表明其在复杂交互处理上优于传统方法。

VerbDiff: A Text-Only Diffusion Model Enhancing Interaction Awareness

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的因果奖励建模方法，旨在解决大型语言模型对齐中的偏见问题，并验证了其在合成和真实数据集上的有效性，从而提升模型的可靠性与公平性。

Beyond Reward Hacking: Causal Rewards for Aligning Large Language Models

BriefGPT - AI 论文速递 ·

本研究建立了一个评估大型语言模型（LLMs）在社会重要问题上的情感基准，填补了AI对人类长期影响的研究空白。通过对七个LLMs（包括GPT-4和Bard）与三个人类样本的情感数据比较，发现LLMs的情感得分存在显著差异，其中GPT-4对AGI表现出最积极的态度，揭示了情感形成中的利益冲突和偏见问题。

Towards a New Benchmark for AI Alignment and Sentiment Analysis: A Comparative Study of Humans and Large Language Models in the Context of AGI

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型在长文本生成中的偏见问题，提出了长文本公平性测试（LTF-TEST）。研究发现模型对某些群体存在偏袒，并对弱势群体过度敏感。通过FT-REGARD微调方法，显著降低了性别偏见并提升了模型性能。

Large Language Models Still Exhibit Bias in Long Text

BriefGPT - AI 论文速递 ·

本文探讨了医疗人工智能中的可解释性问题，强调高置信度预警对医生的重要性。研究表明，AI系统在心电图分析中优于人类医生，并提出了改善AI与用户互动的建议。同时，讨论了AI应用中的偏见问题及其解决方案，以提高医学领域的沟通准确性和研究透明度。

对现有和未来人工智能在心电图计算机解读中的应用的对比态度：临床利益相关者访谈研究

BriefGPT - AI 论文速递 ·

本研究探讨了通过偏好数据训练奖励模型，以提高语言模型与人类偏好的对齐。提出了有效的奖励模型组合方法，强调改进表现较差的输出，减轻欠拟合和奖励欺骗问题。实验表明，利用人类反馈的强化学习（RLHF）显著提升了机器翻译质量，并对其他翻译方向有益。此外，研究提出新方法解决奖励模型中的偏见问题，提升多语言应用性能。

M-RewardBench：在多语言环境中评估奖励模型

BriefGPT - AI 论文速递 ·

本文探讨了多模态语言模型（MLLM）在视觉问答（VQA）中的偏见问题，提出了因果框架和新数据集MORE，以挑战MLLM的推理能力。研究还介绍了ConMe数据生成流水线和Prism框架，旨在提高复合推理性能和评估视觉语言模型的能力。通过多项选择基准DARE和TUBench，评估了模型在处理不可回答问题时的可信度，发现现有模型在鲁棒性和准确性方面仍有改进空间。

相信但要验证：程序化视觉语言模型评估

BriefGPT - AI 论文速递 ·

本文研究了亲属关系识别的多种方法，包括对称双线性模型、卷积神经网络和新特征表示方法。提出了多个数据集，如Families in the Wild和KinRace，并通过实验验证了这些方法在亲属关系识别中的有效性和准确性，解决了年龄和种族偏见问题。

基于音频的亲属验证通过年龄域转换

BriefGPT - AI 论文速递 ·

程序理解工具：WatChat 调试用户心理模型以解释复杂代码

DEV Community ·

本文探讨计算机视觉中的偏见问题，特别是在活动识别和图像描述任务中。研究表明，模型在处理偏见实例时存在显著差异，并提出了新的类别条件采样方法以提高识别准确度。通过量化预训练和微调对偏见放大的影响，发现持续预训练性别中性数据可减少群体差异并提升公平性。此外，研究提出了TaMatch框架，解决半监督学习中的确认偏差问题，确保训练公平性。

多样性类识别自我训练：缓解选择偏差以实现更公正的学习

BriefGPT - AI 论文速递 ·

本文研究了上下文语言模型与视觉表示的关系，发现语言表示能够有效检索对象类别，文本上下文在此过程中起着重要作用。提出了多种视觉增强方法和工具，如ELEVATER和VaLM，以提升语言模型的视觉能力，并探讨了偏见问题及其解决策略，强调了多模态大型语言模型在视觉语言表示学习中的潜力。

提升视觉增强语言模型的效率

BriefGPT - AI 论文速递 ·

本文探讨了利用自然语言处理和大型语言模型构建知识图谱，以提升科学文献的组织和检索效率。研究展示了多种方法，包括基于人工智能的聚类算法和语义知识图谱，旨在提高学术资源的可发现性和分类性能。同时指出了大型语言模型在引用实践中可能引入的偏见问题。

利用认知知识图谱进行学术知识组织的微调和提示工程

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）在医疗领域的应用引发关注，文章探讨了其发展历程、能力及安全性。研究指出，LLMs的兴起源于传统预训练模型（PLMs）的转变，并评估了其中的偏见问题，强调公平性和隐私保护的重要性。文中还提出了针对医学任务的微调方法，展示了LLMs在临床决策支持中的潜力与挑战。

为（反事实）公平性对齐（医学）大语言模型

BriefGPT - AI 论文速递 ·

本文研究了推荐算法在排序质量与公平性之间的权衡，提出了Set2setRank、CLOVER和FairRec等框架和方法，以解决推荐系统中的偏见问题，提升推荐性能和公平性，并探讨超参数选择和模型评估的有效性，为未来研究提供指导。

朝着公平和严格的评估：针对隐式反馈的Top-N推荐任务的超参数优化

BriefGPT - AI 论文速递 ·

本研究分析了多语言大型语言模型中的偏见问题，发现多语言训练可能加剧对保护群体的偏见。提出了LDFighter机制以减轻语言歧视，确保不同语言用户获得一致服务。研究表明，模型的偏见程度与语言的NLP资源量相关，且在多语言环境中评估和减少性别偏见面临挑战。

多语言大型语言模型是否减轻刻板印象偏见？

BriefGPT - AI 论文速递 ·

本文探讨了利用自然语言解释训练大型语言模型（LLMs）的方法，研究其在人类行为预测中的表现及偏见问题。评估结果显示人类与LLM评判者均存在偏见，且研究提出了新工作流程以提高法律案例相关判决的准确性，强调了对LLMs改进的迫切需求。

通过少量解释来近似人类对 NLI 的判断分布：从小处寻找大视角

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在法律判决和文本生成评估中的应用，提出了一种新工作流程，证明其能提供可靠的相关判决。研究表明，LLM在自然语言处理任务中的评估结果与人类专家一致，但在某些情况下，信息检索系统的表现更佳。此外，文章讨论了LLM评估中的偏见问题，并提出了改进评估质量的多维度独立评估系统。

我们能利用大型语言模型填补相关性评判空缺吗？

BriefGPT - AI 论文速递 ·

本文研究了五种概念消除方法在人工智能安全中的有效性，指出这些方法无法完全消除目标概念。提出了新方法，如可分离的多概念擦除和可学习提示，旨在有效去除不良概念，同时保留模型性能。研究还探讨了偏见问题及其解决方案，强调了概念消除的挑战和未来研究方向。

使用任务向量实现鲁棒的概念消除

BriefGPT - AI 论文速递 ·

人工智能系统在临床实践中有潜力革新，但需要解决偏见问题。调查了生物医学领域中应用的偏见处理方法，并讨论了优势和弱点。同时回顾了其他潜在方法。

手语人工智能研究中的系统偏见：聋人呼吁重新评估研究议程

BriefGPT - AI 论文速递 ·