小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GPT-5系统卡补充:敏感对话

在推出GPT-5时,我们专注于提升模型的安全性,尤其是在心理和情感支持方面。10月3日,我们更新了ChatGPT的默认模型,增强了对心理困扰的识别与支持能力,与170多位心理健康专家合作,减少不当回应65-80%。同时发布了相关博客和安全评估。

GPT-5系统卡补充:敏感对话

OpenAI
OpenAI · 2025-10-27T10:00:00Z
探索空白空间:人机协作的数据增强

数据增强对提升机器学习模型的鲁棒性至关重要,但生成多样化数据点以评估模型行为存在挑战。本文介绍了Amplio,一个互动工具,帮助用户识别非结构化文本数据集中的空白数据空间,从而提高数据多样性。Amplio包含三种增强技术,用户研究表明其能快速生成高质量和相关的模型安全提示,展示了互动增强工作流程的变革潜力。

探索空白空间:人机协作的数据增强

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-26T00:00:00Z

本研究提出FALCON方法,通过信息论指导参数选择,增强表示分离,解决大语言模型编码敏感信息的安全隐患。实验表明,FALCON在有效遗忘的同时保持模型实用性,展现出强大的知识恢复抵抗力。

FALCON: Fine-grained Activation Manipulation for Large Language Models via Contrastive Orthogonal Unalignment

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本研究提出了一种新方法——目标模型编辑(TME),针对大型语言模型的安全脆弱性,成功绕过安全过滤器,攻击成功率达到84.86%。强调了加强模型安全的重要性。

基于模型编辑的针对安全对齐大型语言模型的越狱攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
基于AI的应用程序的云安全

云环境中的AI应用安全面临数据依赖、模型中毒和对抗攻击等挑战。为保护AI应用,应实施数据加密、模型安全和异常检测等最佳实践,以确保数据和模型的安全性。

基于AI的应用程序的云安全

DEV Community
DEV Community · 2024-12-01T11:39:34Z
演讲:操控机器:提示注入及其对策

本次演讲讨论了提示注入及其防御方法。提示分为系统提示、上下文和用户输入,提示注入可能导致模型执行不当操作,如泄露商业或个人信息。防御措施包括避免在提示中包含敏感信息、使用对抗性提示检测器和微调模型以增强安全性。尽管厂商在改进防御机制,但完全防止攻击仍然困难。

演讲:操控机器:提示注入及其对策

InfoQ
InfoQ · 2024-11-01T12:30:00Z

香港科技大学USAIL团队提出了新的大语言模型(LLMs)越狱攻击基准JailTrackBench,分析影响模型安全的因素,如攻击者能力、模型规模和安全对齐等。研究表明,模型规模与防御能力不成正比,而安全提示显著增强模型安全性。此外,团队开发了JAILJUDGE评估框架,以系统化评估模型脆弱性并提升防御能力。

什么会影响大模型安全?NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系

量子位
量子位 · 2024-10-31T07:35:44Z
关于我们安全与保障实践的更新

我们成立了安全委员会,审查安全流程并向董事会提出建议,重点关注独立治理、安全措施增强、透明度、外部合作和统一安全框架,以持续提升模型发布的安全性。

关于我们安全与保障实践的更新

OpenAI
OpenAI · 2024-09-16T13:00:00Z

Adversarial Robustness Toolbox是一个Python库,旨在增强机器学习模型的安全性和鲁棒性。文章探讨了多种算法和架构设计,以提升模型对抗攻击的防御能力。研究表明,结合真实与生成数据训练可以提高分类器的准确性和鲁棒性,同时优化神经网络的拓扑结构也能显著增强鲁棒性。

真正稳健的训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

OpenAI华人科学家翁荔提出了大模型「外在幻觉」问题,讨论了产生幻觉的原因、检测和抵抗方法。幻觉可能与预训练数据集和微调新知识有关,可以通过检索增强评估和基于归因的微调来减少。翁荔负责ChatGPT的开发和模型安全。

OpenAI翁荔提出大模型「外在幻觉」:万字blog详解抵抗办法、产幻原因和检测方式

量子位
量子位 · 2024-07-15T06:42:00Z

随着人工智能技术的发展,生成式人工智能服务在自然语言处理和图像生成方面具有巨大潜力。全国网络安全标准化技术委员会发布了《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》,规定了训练数据安全、模型安全和安全措施等基本要求,旨在提高服务安全水平。强调了对未成年人使用生成式人工智能服务的限制。

网安标委印发《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-05-23T11:40:42Z

本文提出了一种迭代决策型脆弱水印算法,旨在检测和防止模型在云端或本地转移时被篡改。该算法通过将正常样本转化为脆弱样本进行验证,增强了模型的鲁棒性。研究还介绍了自适应嵌入方法和基于触发集的水印技术,确保模型在多种攻击下的安全性和准确性。

脆弱模型水印用于完整性保护:利用边界波动和敏感样本配对

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

本文探讨了提示学习在大型语言模型中的应用,提出了提高上下文学习性能的新方法。研究发现,分解提示优于迭代提示,且以英语为中心的模型在多语言任务中表现更佳。此外,研究关注提示窃取攻击及其对模型安全的影响,并验证了提示学习在有毒内容分类和检测中的有效性。

反演上下文学习:通过破坏理解提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z
推进人工智能治理

该公司承诺对模型和系统进行内外红队测试,包括滥用、社会风险和国家安全等领域。他们将制定专业化的红队测试制度,关注生物、网络、系统交互和社会风险等方面。此外,他们还承诺推进人工智能安全的持续研究。

推进人工智能治理

OpenAI
OpenAI · 2023-07-21T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码