小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
揭示大型语言模型中隐藏的偏见、情绪、个性和抽象概念

麻省理工学院和加州大学圣地亚哥分校的研究团队开发了一种新方法,能够检测大型语言模型中的隐含偏见和抽象概念。他们成功识别并操控与特定概念相关的连接,从而增强或减弱这些概念在生成答案中的表现,已应用于500多个概念,提升了对模型安全性和性能的理解。

揭示大型语言模型中隐藏的偏见、情绪、个性和抽象概念

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-02-19T19:00:00Z
OpenAI与Anthropic分享联合安全评估的发现

OpenAI与Anthropic合作进行模型安全性评估,结果显示Claude 4模型在遵循指令方面表现良好,但在抵抗越狱攻击上不及OpenAI的模型。Claude模型在幻觉评估中的拒绝率高达70%,显示出其对不确定性的意识。两家实验室的合作将提升模型的安全性和对齐性,未来将继续改进评估方法。

OpenAI与Anthropic分享联合安全评估的发现

OpenAI
OpenAI · 2025-08-27T10:00:00Z

本研究提出了一种优化医疗领域大语言模型(LLM)数据预处理和训练的新方法,强调模型的安全性和有效性。研究结果表明,芦荟家族模型在医疗基准测试中表现优异,能够有效抵御攻击,推动医疗LLM伦理标准的建立。

Aloe Family Formulation of Open and Specialized Medical Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究探讨大型语言模型中的幻觉现象,提出了一种基于提示的框架,通过幻觉诱导提示和量化提示系统性触发和量化幻觉。研究发现不同模型的回应一致性和幻觉程度存在显著差异,为研究幻觉脆弱性提供了测试平台,并为开发更安全的模型奠定基础。

Triggering Hallucinations in Large Language Models: A Quantitative Study of Prompt-Induced Hallucinations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究分析了监狱逃脱攻击的防御方法,提出了安全性转移和有害性辨别两种机制,并开发了交互机制集成和内部机制集成策略,以优化安全性与实用性的平衡。实验结果表明,这些方法有效提升了模型的安全性。

监狱逃脱防御的工作原理及其集成机制研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
Anthropic CEO Dario 再谈 DeepSeek 和中美 AI 竞争

Anthropic CEO Dario Amodei 在讨论 DeepSeek 时,指出中美 AI 竞争加剧,呼吁对中国实施出口管制以维护美国的领先地位。他承认 DeepSeek 是新竞争者,但批评其模型安全性不足,强调应重视 AI 风险。同时,他欢迎中国人才参与美国 AI 研发,强调与中国政府的关系不同。

Anthropic CEO Dario 再谈 DeepSeek 和中美 AI 竞争

宝玉的分享
宝玉的分享 · 2025-02-06T03:54:16Z
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

机器之心AIxiv专栏促进了学术交流,报道超过2000篇内容。北京交通大学ADaM团队研究系统2对齐技术,提升模型的推理能力和安全性,结果表明引导和监督方法有效改善模型表现。

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

机器之心
机器之心 · 2025-01-23T03:45:44Z
逐步改善健康:每一个机器学习系统

马尔齐耶·加西米从小对视频游戏和健康产生兴趣,最终将计算机科学与医疗结合。作为麻省理工学院副教授,她的研究专注于机器学习在健康领域的应用,尤其是提高模型的安全性和公平性。她指出健康数据中的偏见会影响模型表现,并强调在不同环境中训练模型的重要性。加西米的研究受到个人身份的影响,她努力实现生活与工作的平衡。

逐步改善健康:每一个机器学习系统

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2024-11-25T22:10:00Z

本研究针对开源大型语言模型的毒性输出问题,提出了新的数据策划流程和ToxicCommons数据集,并构建了Celadon分类器,以提高有害内容的检测效率,显著增强模型安全性。

公共资源的毒性:策划开源预训练数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文研究大型语言模型在文本生成中的语言混淆现象,提出“语言混淆熵”作为量化指标,探讨其与模型安全性的关系,并提供基于语言相似性的解决方案。

大型语言模型容易混淆:量化指标、安全隐患及类型分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究提出了一种元忘却方法,解决扩散模型在恶意微调后重新学习已忘记概念的问题。该方法有效防止无害概念被重新学习,增强模型安全性,并探讨了概念去除和对抗训练的应用,提出新的评估指标提升模型遗忘能力和生成质量。

扩散模型中的元忘却:防止重新学习已忘记的概念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出使用权重曲率指数(WCI)来分析对抗鲁棒性泛化问题。WCI量化模型对抗扰动的脆弱性,帮助设计更坚固的深度学习模型,提高模型的可靠性和安全性。

通过权重曲率指数理解对抗鲁棒性泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究发现修剪神经元中的概念显著性和相似性可快速恢复修剪后的性能,并在单个神经元中融合新旧概念。然而,永久概念移除以改善模型安全性仍面临挑战。监控概念再出现并减轻对不安全概念的再学习将是更强健的模型编辑的重要方向。总体而言,本研究展示了概念表征在概念移除后的语言模型中的弹性和流动性。

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本文研究了深度学习模型的脆弱性和攻击方式,提出了SparseEvo算法,并应用于卷积深度神经网络和视觉Transformer模型的评估。SparseEvo具有更高的攻击效率,但仍需进一步研究以增强模型安全性。

研究针对设备端模型的白盒攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-08T00:00:00Z

本文提出了强调帮助而非安全性的模型安全性担忧,指出经过指示调优的模型高度不安全。研究发现,训练 LLaMA 等模型进行微调时,仅增加 3% 的安全示例可以显著提高其安全性。过度的安全调优会使模型拒绝对表面上类似不安全的合理提示作出回应。

安全调校型 LLaMAs:提升遵循指令大型语言模型安全性的经验教训

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码