小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
揭示大型语言模型中隐藏的偏见、情绪、个性和抽象概念

麻省理工学院和加州大学圣地亚哥分校的研究团队开发了一种新方法,能够检测大型语言模型中的隐含偏见和抽象概念。他们成功识别并操控与特定概念相关的连接,从而增强或减弱这些概念在生成答案中的表现,已应用于500多个概念,提升了对模型安全性和性能的理解。

揭示大型语言模型中隐藏的偏见、情绪、个性和抽象概念

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-02-19T19:00:00Z
OpenAI与Anthropic分享联合安全评估的发现

OpenAI与Anthropic合作进行模型安全性评估,结果显示Claude 4模型在遵循指令方面表现良好,但在抵抗越狱攻击上不及OpenAI的模型。Claude模型在幻觉评估中的拒绝率高达70%,显示出其对不确定性的意识。两家实验室的合作将提升模型的安全性和对齐性,未来将继续改进评估方法。

OpenAI与Anthropic分享联合安全评估的发现

OpenAI
OpenAI · 2025-08-27T10:00:00Z

本研究提出了一种优化医疗领域大语言模型(LLM)数据预处理和训练的新方法,强调模型的安全性和有效性。研究结果表明,芦荟家族模型在医疗基准测试中表现优异,能够有效抵御攻击,推动医疗LLM伦理标准的建立。

Aloe Family Formulation of Open and Specialized Medical Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z

本研究探讨大型语言模型中的幻觉现象,提出了一种基于提示的框架,通过幻觉诱导提示和量化提示系统性触发和量化幻觉。研究发现不同模型的回应一致性和幻觉程度存在显著差异,为研究幻觉脆弱性提供了测试平台,并为开发更安全的模型奠定基础。

Triggering Hallucinations in Large Language Models: A Quantitative Study of Prompt-Induced Hallucinations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究分析了监狱逃脱攻击的防御方法,提出了安全性转移和有害性辨别两种机制,并开发了交互机制集成和内部机制集成策略,以优化安全性与实用性的平衡。实验结果表明,这些方法有效提升了模型的安全性。

监狱逃脱防御的工作原理及其集成机制研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
Anthropic CEO Dario 再谈 DeepSeek 和中美 AI 竞争

Anthropic CEO Dario Amodei 在讨论 DeepSeek 时,指出中美 AI 竞争加剧,呼吁对中国实施出口管制以维护美国的领先地位。他承认 DeepSeek 是新竞争者,但批评其模型安全性不足,强调应重视 AI 风险。同时,他欢迎中国人才参与美国 AI 研发,强调与中国政府的关系不同。

Anthropic CEO Dario 再谈 DeepSeek 和中美 AI 竞争

宝玉的分享
宝玉的分享 · 2025-02-06T03:54:16Z
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

机器之心AIxiv专栏促进了学术交流,报道超过2000篇内容。北京交通大学ADaM团队研究系统2对齐技术,提升模型的推理能力和安全性,结果表明引导和监督方法有效改善模型表现。

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

机器之心
机器之心 · 2025-01-23T03:45:44Z
逐步改善健康:每一个机器学习系统

马尔齐耶·加西米从小对视频游戏和健康产生兴趣,最终将计算机科学与医疗结合。作为麻省理工学院副教授,她的研究专注于机器学习在健康领域的应用,尤其是提高模型的安全性和公平性。她指出健康数据中的偏见会影响模型表现,并强调在不同环境中训练模型的重要性。加西米的研究受到个人身份的影响,她努力实现生活与工作的平衡。

逐步改善健康:每一个机器学习系统

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2024-11-25T22:10:00Z

本研究针对大型语言模型(LLMs)的安全风险,提出了CFSafety评估基准,包含10个安全分类的问题集。评估结果显示,尽管GPT-4表现优异,但在安全有效性方面仍需改进,为未来模型安全性提升提供了重要参考。

CFSafety:针对大型语言模型的全面细化安全评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究提出了一种元忘却方法,解决扩散模型在恶意微调后重新学习已忘记概念的问题。该方法有效防止无害概念被重新学习,增强模型安全性,并探讨了概念去除和对抗训练的应用,提出新的评估指标提升模型遗忘能力和生成质量。

扩散模型中的元忘却:防止重新学习已忘记的概念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文探讨了联邦学习中的后门攻击及其防御策略,提出了多种攻击方法和防御机制,如范数削弱、差分隐私和FedGrad等。研究指出现有防御措施存在缺陷,需进一步改进以确保模型安全性。

VFLIP:一种针对垂直联邦学习的后门防御方法,通过识别和净化技术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

该文章研究了神经网络的后门攻击,提出了新的NLP后门攻击框架BadNL,包含三种触发器构造方法,攻击成功率接近100%。研究表明,现有NLP模型易受攻击,需开发更隐蔽的防御策略和评估工具,以提升模型安全性。

大型语言模型是优秀的攻击者:高效且隐蔽的文本后门攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

现有视觉语言人工智能模型在医学任务中存在严重漏洞,易受提示注入攻击。研究表明,微弱提示可导致模型输出有害信息,且人类观察者难以察觉。为此,提出了虚拟提示注入技术(VPI)及其他防御机制,以提高模型安全性,强调在临床应用前需解决这些安全隐患。

通过视觉提示注入的大型视觉语言模型对抗目标劫持的实证分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

研究探讨了大型语言模型(LLMs)和多模态语言模型(MLLMs)的越狱攻击及防御策略,提出了新的算法和框架以增强模型安全性。实证研究显示现有防御方法不足,并提出改进措施以显著降低攻击成功率。研究强调了破解方法评估和模型安全性理解的重要性,为未来研究提供了启示。

基于大型语言模型的集成越狱算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

本文介绍了一种名为uzzer的黑盒取证模糊框架,能够在多种语言模型上实现高成功率的攻击,促进模型安全性研究。研究提出了基于上下文互动的攻击形式和ReNeLLM框架,揭示了现有防御方法的不足,并通过红队技术检测有害行为,发现数万条攻击性回复。此外,引入WildTeaming框架和WildJailbreak数据集,进一步探索大型语言模型的安全性和漏洞。

RedAgent: 上下文感知的自主语言代理对抗大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

研究探讨了大型语言模型中的性别偏见和毒性问题,提出了自动生成测试用例的方法以减轻偏见。分析显示,有毒内容的产生与用户请求密切相关。研究评估了不同策略对模型偏差的影响,强调公平性的重要性,并提出改进模型安全性和效用的建议。

身临其境:透过视角转换指导大型语言模型减少有害和偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-22T00:00:00Z

该研究提出了多种幻觉检测方法和数据集,旨在解决大型语言模型中的幻觉问题。通过迭代自训练框架和新基准,评估了模型在医疗和翻译领域的表现,强调了提高模型安全性和可靠性的必要性。

ANHALTEN: 跨语言转移用于德语标记级别无参考幻觉检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

该研究探讨了开源大型语言模型(LLM)的敌对攻击方法,发现嵌入空间攻击能有效触发危险行为,并提出了新的威胁模型。研究表明,提示构建对模型决策有显著影响,微小变化也能改变输出。呼吁在发布前进行全面测试,以提高模型的安全性和对齐性。

单字扰动破坏 LLM 对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本文介绍了多种针对对抗攻击的认证防御方法,如BagCert、PatchCURE、MajorCert和PatchCleanser等。这些方法在不同数据集上实现了高准确率和认证鲁棒性,显著提升了模型的防御能力。研究表明,通过优化损失函数和改进模型结构,可以有效增强深度学习模型的安全性。

CrossCert: 用于深度学习模型补丁鲁棒性认证的交叉验证检测方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文提出了多种水印技术,如SWEET和COLOR,以应对大型语言模型的滥用问题。这些方法旨在提高生成代码和文本的质量与可追踪性,研究表明它们在保护知识产权和检测生成内容方面表现优异,能够有效嵌入信息而不影响文本质量,同时提升模型的鲁棒性和安全性。

CodeIP: 大规模代码语言模型的语法引导多位数水印

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码