小红花·文摘

CrowdStrike和Check Point分别收购了初创企业Pangea和Lakera，以增强其人工智能安全防护能力。Pangea专注于监控员工与AI工具的互动，而Check Point则提升其GenAI Protect工具，旨在保护企业的AI应用和数据安全。

CrowdStrike与Check Point通过收购扩展AI安全能力

FreeBuf网络安全行业门户 ·

本研究探讨大型语言模型的元认知能力，提出神经反馈范式以量化其激活模式的报告与控制能力。结果表明，LLMs能够学习这些能力，但受到示例数量和语义可解释性等因素的影响，揭示了其监测能力的局限性，为人工智能安全提供了实证依据。

语言模型具备元认知监控与控制其内部激活的能力

BriefGPT - AI 论文速递 ·

本研究探讨了机器遗忘对人工智能安全的影响，质疑遗忘与传统安全培训的区别。通过对抗视角，揭示现有破解方法在特定条件下仍然有效，并提出自适应方法，表明被认为遗忘的能力可能恢复，挑战了遗忘方法的稳健性。

An Adversarial Perspective on the Impact of Machine Unlearning on AI Safety

BriefGPT - AI 论文速递 ·

为解决大型语言模型的偏见和隐私问题，研究提出了多种安全防护方法，如Guide-Align和GuardAgent，显著提高了模型的安全性和质量。LLMSafeGuard和$R^2$-Guard等框架通过实时监控和知识增强推理，增强了模型的鲁棒性。Llama Guard专注于输入输出的安全风险分类，支持定制化任务，推动人工智能安全的发展。

PrimeGuard：通过无需调整的路由实现安全且有用的 LLMs

BriefGPT - AI 论文速递 ·

7月4日，上海举办了2024世界人工智能大会暨人工智能全球治理高级别会议。周伯文在会上发表演讲，阐述了他的新技术主张“人工智能45°平衡律”和上海人工智能实验室实现该主张的技术路径“可信AGI的因果之梯”。他强调了人工智能安全的重要性，呼吁在AI发展中追求安全与性能的平衡。他还介绍了上海人工智能实验室正在探索的以因果为核心的技术路径，称之为“可信AGI的因果之梯”。他希望通过这种技术思想体系，实现人工智能的安全与卓越性能的平衡。

WAIC 2024开幕，上海AI Lab主任、首席科学家周伯文提出“人工智能45°平衡律”

FreeBuf网络安全行业门户 ·

根据F5的数据显示，75%的企业正在实施人工智能，但72%的企业存在数据质量问题和无法扩展数据实践的问题。调查显示，只有24%的企业已经大规模实施了生成式人工智能技术。人工智能安全方面的主要问题包括攻击、数据隐私和数据泄露。企业在应对这些威胁时主要关注应用程序接口安全、监控和DDoS保护。

生成式人工智能技术的快速应用，引发企业内部担忧

FreeBuf网络安全行业门户 ·

高维神经网络的机制解释有助于理解低维表示，从而确保人工智能的安全性和价值对齐。研究表明，现有的解释方法不足以深入理解表示，推动了新框架的探索。通过分析模型行为，提出了可调试的Transformer程序和量化解释性的方法，强调了解释性在算法和自然语言处理任务中的重要性。

通过机制可解释性为模型性能提供可证明的保证

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在金融领域的应用及其风险评估，分析了奖励模型在识别信息风险、恶意用途和歧视内容时的挑战。研究表明，LLMs对信息风险的反应较为宽松，强调了改进人工智能安全措施的必要性。此外，提出了一种金融LLM模型，通过多任务提示优化和推断增强推理，显著提升了金融分析性能，并为金融领域的LLM应用提供了决策框架和路线图。

RiskLabs：基于多源数据的大型语言模型预测金融风险

BriefGPT - AI 论文速递 ·

2024年3月，全球网络安全市场共发生53起投融资事件，其中中国内4起，国外49起，投融资规模达亿元级别，占比7.55%。种子轮融资是主要轮次，人工智能安全领域受到投资者青睐。投资事件包括沐创、知其安、云起无垠、灰帽科技、Axonius、Nozomi Networks等。

FreeBuf 全球网络安全产业投融资观察（3月）

FreeBuf网络安全行业门户 ·

本文研究了五种概念消除方法在人工智能安全中的有效性，指出这些方法无法完全消除目标概念。提出了新方法，如可分离的多概念擦除和可学习提示，旨在有效去除不良概念，同时保留模型性能。研究还探讨了偏见问题及其解决方案，强调了概念消除的挑战和未来研究方向。

使用任务向量实现鲁棒的概念消除

BriefGPT - AI 论文速递 ·

加密货币诈骗犯导致OpenAI危机，有效利他主义者被解雇，员工威胁辞职。OpenAI研究人员关注人工智能安全，但缺乏实际专业知识，忽视了公民社会团体的担忧。OpenAI的安全问题也暴露了对生物安全威胁的处理不足。

有效利他主义是OpenAI的唐僧袈裟

极道 ·

FCIS 2023网络安全创新大会将设立“人工智能安全与智能制造安全特色专场”，邀请全球AI研究学者、智能制造专家和企业安全负责人分享最前沿的人工智能安全产品解决方案。大会还将推出“网安星际漫游计划”，召集广大志士一起重构安全。

AI提效网安运营新未来，数据安全新机遇与新挑战 | FCIS 2023 大会精彩抢先看

FreeBuf网络安全行业门户 ·

网络安全专家陈殷在FCIS 2023网络安全创新大会上分享了红队实战攻防的技巧，包括信息收集、基础环境建设和快速突破等方面。大会征集人工智能安全、数据安全、安全建设等议题。

从实战看红队进攻性技巧 | FCIS 2023大会议题前瞻

FreeBuf网络安全行业门户 ·

非夕科技信息安全总监刘歆轶先生将在FCIS 2023网络安全创新大会上发表《AIGC审计框架初探》演讲，探讨AIGC的可审计性。大会还设立“人工智能安全与智能制造安全特色专场”，邀请全球AI研究学者、智能制造专家、企业安全负责人分享最前沿的AI安全产品解决方案。

AIGC 审计框架初探 | FCIS 2023 大会议题抢先看

FreeBuf网络安全行业门户 ·

研究发现语言模型的人工智能安全训练和红队测试存在语言不平等性跨语言漏洞，呼吁加强整体红队测试工作，开发具有广泛语言覆盖能力的多语言安全保护措施。

大规模语言模型中的多语言越狱挑战

BriefGPT - AI 论文速递 ·

Contra the xAI Alignment Plan

DemoChen's Clip ·

推进人工智能治理

OpenAI ·

荷兰政府采用RPKI标准升级互联网路由安全性，纽约律师事务所遭黑客攻击，CISA警告5个安全漏洞，Open AI发布人工智能安全路径报告，LockBit 3.0勒索软件攻击获利百万美元。

FreeBuf 早报 | vm2 沙箱存在严重漏洞；苹果发布零日漏洞更新

FreeBuf网络安全行业门户 ·