在推出GPT-5时,我们专注于提升模型的安全性,尤其是在心理和情感支持方面。10月3日,我们更新了ChatGPT的默认模型,增强了对心理困扰的识别与支持能力,与170多位心理健康专家合作,减少不当回应65-80%。同时发布了相关博客和安全评估。
数据增强对提升机器学习模型的鲁棒性至关重要,但生成多样化数据点以评估模型行为存在挑战。本文介绍了Amplio,一个互动工具,帮助用户识别非结构化文本数据集中的空白数据空间,从而提高数据多样性。Amplio包含三种增强技术,用户研究表明其能快速生成高质量和相关的模型安全提示,展示了互动增强工作流程的变革潜力。
本研究提出FALCON方法,通过信息论指导参数选择,增强表示分离,解决大语言模型编码敏感信息的安全隐患。实验表明,FALCON在有效遗忘的同时保持模型实用性,展现出强大的知识恢复抵抗力。
本研究提出了一种新方法——目标模型编辑(TME),针对大型语言模型的安全脆弱性,成功绕过安全过滤器,攻击成功率达到84.86%。强调了加强模型安全的重要性。
云环境中的AI应用安全面临数据依赖、模型中毒和对抗攻击等挑战。为保护AI应用,应实施数据加密、模型安全和异常检测等最佳实践,以确保数据和模型的安全性。
本次演讲讨论了提示注入及其防御方法。提示分为系统提示、上下文和用户输入,提示注入可能导致模型执行不当操作,如泄露商业或个人信息。防御措施包括避免在提示中包含敏感信息、使用对抗性提示检测器和微调模型以增强安全性。尽管厂商在改进防御机制,但完全防止攻击仍然困难。
香港科技大学USAIL团队提出了新的大语言模型(LLMs)越狱攻击基准JailTrackBench,分析影响模型安全的因素,如攻击者能力、模型规模和安全对齐等。研究表明,模型规模与防御能力不成正比,而安全提示显著增强模型安全性。此外,团队开发了JAILJUDGE评估框架,以系统化评估模型脆弱性并提升防御能力。
我们成立了安全委员会,审查安全流程并向董事会提出建议,重点关注独立治理、安全措施增强、透明度、外部合作和统一安全框架,以持续提升模型发布的安全性。
Adversarial Robustness Toolbox是一个Python库,旨在增强机器学习模型的安全性和鲁棒性。文章探讨了多种算法和架构设计,以提升模型对抗攻击的防御能力。研究表明,结合真实与生成数据训练可以提高分类器的准确性和鲁棒性,同时优化神经网络的拓扑结构也能显著增强鲁棒性。
OpenAI华人科学家翁荔提出了大模型「外在幻觉」问题,讨论了产生幻觉的原因、检测和抵抗方法。幻觉可能与预训练数据集和微调新知识有关,可以通过检索增强评估和基于归因的微调来减少。翁荔负责ChatGPT的开发和模型安全。
随着人工智能技术的发展,生成式人工智能服务在自然语言处理和图像生成方面具有巨大潜力。全国网络安全标准化技术委员会发布了《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》,规定了训练数据安全、模型安全和安全措施等基本要求,旨在提高服务安全水平。强调了对未成年人使用生成式人工智能服务的限制。
本文提出了一种迭代决策型脆弱水印算法,旨在检测和防止模型在云端或本地转移时被篡改。该算法通过将正常样本转化为脆弱样本进行验证,增强了模型的鲁棒性。研究还介绍了自适应嵌入方法和基于触发集的水印技术,确保模型在多种攻击下的安全性和准确性。
本文探讨了提示学习在大型语言模型中的应用,提出了提高上下文学习性能的新方法。研究发现,分解提示优于迭代提示,且以英语为中心的模型在多语言任务中表现更佳。此外,研究关注提示窃取攻击及其对模型安全的影响,并验证了提示学习在有毒内容分类和检测中的有效性。
该公司承诺对模型和系统进行内外红队测试,包括滥用、社会风险和国家安全等领域。他们将制定专业化的红队测试制度,关注生物、网络、系统交互和社会风险等方面。此外,他们还承诺推进人工智能安全的持续研究。
完成下面两步后,将自动完成登录并继续当前操作。