小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大型语言模型中的偏见问题,提出了一种可扩展的基准框架,通过多任务方法检测社会文化维度的偏见,并利用大型语言模型进行自动评估。研究揭示了模型大小与安全性之间的权衡,为未来更公平的语言模型发展提供指导。

Benchmarking Adversarial Robustness to Bias in Large Language Models: Scalable Automated Assessment Using LLM as a Judge

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出VerbDiff模型,旨在解决文本到图像扩散模型在生成交互图像时的偏见问题。该模型能够更好地捕捉语义,生成高质量图像,实验结果表明其在复杂交互处理上优于传统方法。

VerbDiff: A Text-Only Diffusion Model Enhancing Interaction Awareness

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种新颖的因果奖励建模方法,旨在解决大型语言模型对齐中的偏见问题,并验证了其在合成和真实数据集上的有效性,从而提升模型的可靠性与公平性。

Beyond Reward Hacking: Causal Rewards for Aligning Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z

本研究建立了一个评估大型语言模型(LLMs)在社会重要问题上的情感基准,填补了AI对人类长期影响的研究空白。通过对七个LLMs(包括GPT-4和Bard)与三个人类样本的情感数据比较,发现LLMs的情感得分存在显著差异,其中GPT-4对AGI表现出最积极的态度,揭示了情感形成中的利益冲突和偏见问题。

Towards a New Benchmark for AI Alignment and Sentiment Analysis: A Comparative Study of Humans and Large Language Models in the Context of AGI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究探讨了大型语言模型在长文本生成中的偏见问题,提出了长文本公平性测试(LTF-TEST)。研究发现模型对某些群体存在偏袒,并对弱势群体过度敏感。通过FT-REGARD微调方法,显著降低了性别偏见并提升了模型性能。

Large Language Models Still Exhibit Bias in Long Text

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-23T00:00:00Z

本文探讨了医疗人工智能中的可解释性问题,强调高置信度预警对医生的重要性。研究表明,AI系统在心电图分析中优于人类医生,并提出了改善AI与用户互动的建议。同时,讨论了AI应用中的偏见问题及其解决方案,以提高医学领域的沟通准确性和研究透明度。

对现有和未来人工智能在心电图计算机解读中的应用的对比态度:临床利益相关者访谈研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本研究探讨了通过偏好数据训练奖励模型,以提高语言模型与人类偏好的对齐。提出了有效的奖励模型组合方法,强调改进表现较差的输出,减轻欠拟合和奖励欺骗问题。实验表明,利用人类反馈的强化学习(RLHF)显著提升了机器翻译质量,并对其他翻译方向有益。此外,研究提出新方法解决奖励模型中的偏见问题,提升多语言应用性能。

M-RewardBench:在多语言环境中评估奖励模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-20T00:00:00Z

本文探讨了多模态语言模型(MLLM)在视觉问答(VQA)中的偏见问题,提出了因果框架和新数据集MORE,以挑战MLLM的推理能力。研究还介绍了ConMe数据生成流水线和Prism框架,旨在提高复合推理性能和评估视觉语言模型的能力。通过多项选择基准DARE和TUBench,评估了模型在处理不可回答问题时的可信度,发现现有模型在鲁棒性和准确性方面仍有改进空间。

相信但要验证:程序化视觉语言模型评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文研究了亲属关系识别的多种方法,包括对称双线性模型、卷积神经网络和新特征表示方法。提出了多个数据集,如Families in the Wild和KinRace,并通过实验验证了这些方法在亲属关系识别中的有效性和准确性,解决了年龄和种族偏见问题。

基于音频的亲属验证通过年龄域转换

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z
程序理解工具:WatChat 调试用户心理模型以解释复杂代码

WatChat系统通过自然语言交互帮助用户理解复杂程序,重点在于调试用户的心理模型,而非仅展示代码。研究表明,WatChat能显著提高用户对复杂程序的理解。虽然目前仅适用于小型程序,并依赖大型语言模型可能存在偏见,但其在人类认知方面的创新为程序理解提供了新方向,对学生和专业人士都有价值。

程序理解工具:WatChat 调试用户心理模型以解释复杂代码

DEV Community
DEV Community · 2024-10-03T09:16:02Z

本文探讨计算机视觉中的偏见问题,特别是在活动识别和图像描述任务中。研究表明,模型在处理偏见实例时存在显著差异,并提出了新的类别条件采样方法以提高识别准确度。通过量化预训练和微调对偏见放大的影响,发现持续预训练性别中性数据可减少群体差异并提升公平性。此外,研究提出了TaMatch框架,解决半监督学习中的确认偏差问题,确保训练公平性。

多样性类识别自我训练:缓解选择偏差以实现更公正的学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

本文研究了上下文语言模型与视觉表示的关系,发现语言表示能够有效检索对象类别,文本上下文在此过程中起着重要作用。提出了多种视觉增强方法和工具,如ELEVATER和VaLM,以提升语言模型的视觉能力,并探讨了偏见问题及其解决策略,强调了多模态大型语言模型在视觉语言表示学习中的潜力。

提升视觉增强语言模型的效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文探讨了利用自然语言处理和大型语言模型构建知识图谱,以提升科学文献的组织和检索效率。研究展示了多种方法,包括基于人工智能的聚类算法和语义知识图谱,旨在提高学术资源的可发现性和分类性能。同时指出了大型语言模型在引用实践中可能引入的偏见问题。

利用认知知识图谱进行学术知识组织的微调和提示工程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

大型语言模型(LLMs)在医疗领域的应用引发关注,文章探讨了其发展历程、能力及安全性。研究指出,LLMs的兴起源于传统预训练模型(PLMs)的转变,并评估了其中的偏见问题,强调公平性和隐私保护的重要性。文中还提出了针对医学任务的微调方法,展示了LLMs在临床决策支持中的潜力与挑战。

为(反事实)公平性对齐(医学)大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

本文研究了推荐算法在排序质量与公平性之间的权衡,提出了Set2setRank、CLOVER和FairRec等框架和方法,以解决推荐系统中的偏见问题,提升推荐性能和公平性,并探讨超参数选择和模型评估的有效性,为未来研究提供指导。

朝着公平和严格的评估:针对隐式反馈的Top-N推荐任务的超参数优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

本研究分析了多语言大型语言模型中的偏见问题,发现多语言训练可能加剧对保护群体的偏见。提出了LDFighter机制以减轻语言歧视,确保不同语言用户获得一致服务。研究表明,模型的偏见程度与语言的NLP资源量相关,且在多语言环境中评估和减少性别偏见面临挑战。

多语言大型语言模型是否减轻刻板印象偏见?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

本文探讨了利用自然语言解释训练大型语言模型(LLMs)的方法,研究其在人类行为预测中的表现及偏见问题。评估结果显示人类与LLM评判者均存在偏见,且研究提出了新工作流程以提高法律案例相关判决的准确性,强调了对LLMs改进的迫切需求。

通过少量解释来近似人类对 NLI 的判断分布:从小处寻找大视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文探讨了大型语言模型(LLM)在法律判决和文本生成评估中的应用,提出了一种新工作流程,证明其能提供可靠的相关判决。研究表明,LLM在自然语言处理任务中的评估结果与人类专家一致,但在某些情况下,信息检索系统的表现更佳。此外,文章讨论了LLM评估中的偏见问题,并提出了改进评估质量的多维度独立评估系统。

我们能利用大型语言模型填补相关性评判空缺吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

本文研究了五种概念消除方法在人工智能安全中的有效性,指出这些方法无法完全消除目标概念。提出了新方法,如可分离的多概念擦除和可学习提示,旨在有效去除不良概念,同时保留模型性能。研究还探讨了偏见问题及其解决方案,强调了概念消除的挑战和未来研究方向。

使用任务向量实现鲁棒的概念消除

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

人工智能系统在临床实践中有潜力革新,但需要解决偏见问题。调查了生物医学领域中应用的偏见处理方法,并讨论了优势和弱点。同时回顾了其他潜在方法。

手语人工智能研究中的系统偏见:聋人呼吁重新评估研究议程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码