小红花·文摘 - 小红花技术领袖俱乐部

研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过

The New Stack ·

伊丽莎白·加勒特·克里斯滕森：来自互联网安全中心的PostgreSQL安全检查清单

伊丽莎白·加勒特·克里斯滕森：来自互联网安全中心的PostgreSQL安全检查清单

Planet PostgreSQL ·

开放源代码安全基金会发布开源项目安全基准

开放源代码安全基金会发布开源项目安全基准

InfoQ ·

本研究探讨了大型推理模型R1的安全性，特别是开源模型的误用风险。评估显示R1在安全基准和攻击方面存在显著差距，强调了增强安全性的必要性。推理能力越强，潜在危害也越大，因此呼吁改进R1模型的安全性。

The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

BriefGPT - AI 论文速递 ·

本文探讨了中文大型语言模型（LLM）的安全性评估，提出了针对不同风险类型的评估标准，并开发了多语言安全基准（XSafety）。研究发现区域特定风险是主要问题，许多开源模型存在安全弱点。通过引入新的测试套件和细致标注的数据集，显著提高了模型的安全性，建议开发者加强系统提示以降低风险。

SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述

BriefGPT - AI 论文速递 ·

该研究介绍了JADE模糊平台，通过增强种子问题的语言复杂性破坏了三类LLM。JADE生成了三个安全基准，包含高风险的不安全问题。该研究认为当前的LLM无法识别恶意，因为人类语言的复杂性导致了无限的句法结构。

SALAD-Bench: 大型语言模型的分层与综合安全评估基准

BriefGPT - AI 论文速递 ·