小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GPT-5系统卡补充:敏感对话

在推出GPT-5时,我们专注于提升模型的安全性,尤其是在心理和情感支持方面。10月3日,我们更新了ChatGPT的默认模型,增强了对心理困扰的识别与支持能力,与170多位心理健康专家合作,减少不当回应65-80%。同时发布了相关博客和安全评估。

GPT-5系统卡补充:敏感对话

OpenAI
OpenAI · 2025-10-27T10:00:00Z
探索空白空间:人机协作的数据增强

数据增强对提升机器学习模型的鲁棒性至关重要,但生成多样化数据点以评估模型行为存在挑战。本文介绍了Amplio,一个互动工具,帮助用户识别非结构化文本数据集中的空白数据空间,从而提高数据多样性。Amplio包含三种增强技术,用户研究表明其能快速生成高质量和相关的模型安全提示,展示了互动增强工作流程的变革潜力。

探索空白空间:人机协作的数据增强

Apple Machine Learning Research
Apple Machine Learning Research · 2025-03-26T00:00:00Z

本研究引入SafeChain安全训练数据集,解决了大型推理模型在长链推理中的不安全输出问题,提升了模型的安全性和性能。

SafeChain:具有长链推理能力的语言模型的安全性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种新方法——目标模型编辑(TME),针对大型语言模型的安全脆弱性,成功绕过安全过滤器,攻击成功率达到84.86%。强调了加强模型安全的重要性。

基于模型编辑的针对安全对齐大型语言模型的越狱攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
基于AI的应用程序的云安全

云环境中的AI应用安全面临数据依赖、模型中毒和对抗攻击等挑战。为保护AI应用,应实施数据加密、模型安全和异常检测等最佳实践,以确保数据和模型的安全性。

基于AI的应用程序的云安全

DEV Community
DEV Community · 2024-12-01T11:39:34Z
演讲:操控机器:提示注入及其对策

本次演讲讨论了提示注入及其防御方法。提示分为系统提示、上下文和用户输入,提示注入可能导致模型执行不当操作,如泄露商业或个人信息。防御措施包括避免在提示中包含敏感信息、使用对抗性提示检测器和微调模型以增强安全性。尽管厂商在改进防御机制,但完全防止攻击仍然困难。

演讲:操控机器:提示注入及其对策

InfoQ
InfoQ · 2024-11-01T12:30:00Z

香港科技大学USAIL团队提出了新的大语言模型(LLMs)越狱攻击基准JailTrackBench,分析影响模型安全的因素,如攻击者能力、模型规模和安全对齐等。研究表明,模型规模与防御能力不成正比,而安全提示显著增强模型安全性。此外,团队开发了JAILJUDGE评估框架,以系统化评估模型脆弱性并提升防御能力。

什么会影响大模型安全?NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系

量子位
量子位 · 2024-10-31T07:35:44Z

研究分析了大型语言模型在拒绝服务攻击下的脆弱性,尤其是语音到文本接口。提出了一种毒害攻击方法(P-DoS),通过注入特定样本突破输出长度限制,显著延长输出。结果表明需要加强防护以确保模型安全。

对大型语言模型的拒绝服务毒害攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z
关于我们安全与保障实践的更新

我们成立了安全委员会,审查安全流程并向董事会提出建议,重点关注独立治理、安全措施增强、透明度、外部合作和统一安全框架,以持续提升模型发布的安全性。

关于我们安全与保障实践的更新

OpenAI
OpenAI · 2024-09-16T13:00:00Z

OpenAI华人科学家翁荔提出了大模型「外在幻觉」问题,讨论了产生幻觉的原因、检测和抵抗方法。幻觉可能与预训练数据集和微调新知识有关,可以通过检索增强评估和基于归因的微调来减少。翁荔负责ChatGPT的开发和模型安全。

OpenAI翁荔提出大模型「外在幻觉」:万字blog详解抵抗办法、产幻原因和检测方式

量子位
量子位 · 2024-07-15T06:42:00Z

研究发现,语言模型在生成虚假和欺骗性推理时存在困难。研究人员提出了一种越狱攻击方法,通过利用这一缺陷来获取具有恶意输出的对齐语言模型。研究人员认为这些发现可以扩展到模型安全、自验证和幻觉等领域。

大型语言模型是不自觉的说真话者:利用谬误失误进行越狱攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

随着人工智能技术的发展,生成式人工智能服务在自然语言处理和图像生成方面具有巨大潜力。全国网络安全标准化技术委员会发布了《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》,规定了训练数据安全、模型安全和安全措施等基本要求,旨在提高服务安全水平。强调了对未成年人使用生成式人工智能服务的限制。

网安标委印发《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-05-23T11:40:42Z
推进人工智能治理

该公司承诺对模型和系统进行内外红队测试,包括滥用、社会风险和国家安全等领域。他们将制定专业化的红队测试制度,关注生物、网络、系统交互和社会风险等方面。此外,他们还承诺推进人工智能安全的持续研究。

推进人工智能治理

OpenAI
OpenAI · 2023-07-21T07:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码