小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
研究发现,OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

思科研究发现,企业在评估AI模型时使用的安全基准存在问题。多轮对话攻击的成功率显著高于单轮对话,且单轮表现无法有效预测多轮韧性。不同模型在多轮攻击下的表现差异明显,某些模型在配置变化下的安全性变化未被现有基准捕捉。思科建议AI提供商应披露部署设置对安全性的影响。

研究发现,OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

The New Stack
The New Stack · 2026-06-01T21:01:11Z
伊丽莎白·加勒特·克里斯滕森:来自互联网安全中心的PostgreSQL安全检查清单

互联网安全中心(CIS)发布了针对PostgreSQL 17的安全基准,旨在提升其部署安全性。该基准提供了安装、权限、日志和用户访问等方面的配置建议和安全检查清单,包含200多页的描述和示例代码,帮助用户验证配置以确保符合安全标准。

伊丽莎白·加勒特·克里斯滕森:来自互联网安全中心的PostgreSQL安全检查清单

Planet PostgreSQL
Planet PostgreSQL · 2025-03-25T15:00:00Z
开放源代码安全基金会发布开源项目安全基准

开放源代码安全基金会发布了《开放源代码项目安全基准》,为开源维护者提供安全指导。该基准根据项目成熟度分为三个级别,涵盖访问控制和构建发布等领域,旨在帮助不同规模的项目满足安全需求。维护者需共同承担安全责任,基准将定期更新以反映最佳实践。

开放源代码安全基金会发布开源项目安全基准

InfoQ
InfoQ · 2025-03-05T10:00:00Z

本研究探讨了大型推理模型R1的安全性,特别是开源模型的误用风险。评估显示R1在安全基准和攻击方面存在显著差距,强调了增强安全性的必要性。推理能力越强,潜在危害也越大,因此呼吁改进R1模型的安全性。

The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本文探讨了中文大型语言模型(LLM)的安全性评估,提出了针对不同风险类型的评估标准,并开发了多语言安全基准(XSafety)。研究发现区域特定风险是主要问题,许多开源模型存在安全弱点。通过引入新的测试套件和细致标注的数据集,显著提高了模型的安全性,建议开发者加强系统提示以降低风险。

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-08T00:00:00Z

该研究介绍了JADE模糊平台,通过增强种子问题的语言复杂性破坏了三类LLM。JADE生成了三个安全基准,包含高风险的不安全问题。该研究认为当前的LLM无法识别恶意,因为人类语言的复杂性导致了无限的句法结构。

SALAD-Bench: 大型语言模型的分层与综合安全评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码