小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

CrowdStrike和Check Point分别收购了初创企业Pangea和Lakera,以增强其人工智能安全防护能力。Pangea专注于监控员工与AI工具的互动,而Check Point则提升其GenAI Protect工具,旨在保护企业的AI应用和数据安全。

CrowdStrike与Check Point通过收购扩展AI安全能力

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-16T14:03:42Z

本研究探讨大型语言模型的元认知能力,提出神经反馈范式以量化其激活模式的报告与控制能力。结果表明,LLMs能够学习这些能力,但受到示例数量和语义可解释性等因素的影响,揭示了其监测能力的局限性,为人工智能安全提供了实证依据。

语言模型具备元认知监控与控制其内部激活的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究探讨了机器遗忘对人工智能安全的影响,质疑遗忘与传统安全培训的区别。通过对抗视角,揭示现有破解方法在特定条件下仍然有效,并提出自适应方法,表明被认为遗忘的能力可能恢复,挑战了遗忘方法的稳健性。

An Adversarial Perspective on the Impact of Machine Unlearning on AI Safety

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

为解决大型语言模型的偏见和隐私问题,研究提出了多种安全防护方法,如Guide-Align和GuardAgent,显著提高了模型的安全性和质量。LLMSafeGuard和$R^2$-Guard等框架通过实时监控和知识增强推理,增强了模型的鲁棒性。Llama Guard专注于输入输出的安全风险分类,支持定制化任务,推动人工智能安全的发展。

PrimeGuard:通过无需调整的路由实现安全且有用的 LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-23T00:00:00Z

7月4日,上海举办了2024世界人工智能大会暨人工智能全球治理高级别会议。周伯文在会上发表演讲,阐述了他的新技术主张“人工智能45°平衡律”和上海人工智能实验室实现该主张的技术路径“可信AGI的因果之梯”。他强调了人工智能安全的重要性,呼吁在AI发展中追求安全与性能的平衡。他还介绍了上海人工智能实验室正在探索的以因果为核心的技术路径,称之为“可信AGI的因果之梯”。他希望通过这种技术思想体系,实现人工智能的安全与卓越性能的平衡。

WAIC 2024开幕,上海AI Lab主任、首席科学家周伯文提出“人工智能45°平衡律”

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-07-04T09:04:24Z

根据F5的数据显示,75%的企业正在实施人工智能,但72%的企业存在数据质量问题和无法扩展数据实践的问题。调查显示,只有24%的企业已经大规模实施了生成式人工智能技术。人工智能安全方面的主要问题包括攻击、数据隐私和数据泄露。企业在应对这些威胁时主要关注应用程序接口安全、监控和DDoS保护。

生成式人工智能技术的快速应用,引发企业内部担忧

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-06-19T03:46:46Z

高维神经网络的机制解释有助于理解低维表示,从而确保人工智能的安全性和价值对齐。研究表明,现有的解释方法不足以深入理解表示,推动了新框架的探索。通过分析模型行为,提出了可调试的Transformer程序和量化解释性的方法,强调了解释性在算法和自然语言处理任务中的重要性。

通过机制可解释性为模型性能提供可证明的保证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文探讨了大型语言模型(LLMs)在金融领域的应用及其风险评估,分析了奖励模型在识别信息风险、恶意用途和歧视内容时的挑战。研究表明,LLMs对信息风险的反应较为宽松,强调了改进人工智能安全措施的必要性。此外,提出了一种金融LLM模型,通过多任务提示优化和推断增强推理,显著提升了金融分析性能,并为金融领域的LLM应用提供了决策框架和路线图。

RiskLabs:基于多源数据的大型语言模型预测金融风险

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-11T00:00:00Z

2024年3月,全球网络安全市场共发生53起投融资事件,其中中国内4起,国外49起,投融资规模达亿元级别,占比7.55%。种子轮融资是主要轮次,人工智能安全领域受到投资者青睐。投资事件包括沐创、知其安、云起无垠、灰帽科技、Axonius、Nozomi Networks等。

FreeBuf 全球网络安全产业投融资观察(3月)

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-04-08T08:08:17Z

本文研究了五种概念消除方法在人工智能安全中的有效性,指出这些方法无法完全消除目标概念。提出了新方法,如可分离的多概念擦除和可学习提示,旨在有效去除不良概念,同时保留模型性能。研究还探讨了偏见问题及其解决方案,强调了概念消除的挑战和未来研究方向。

使用任务向量实现鲁棒的概念消除

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-04T00:00:00Z

加密货币诈骗犯导致OpenAI危机,有效利他主义者被解雇,员工威胁辞职。OpenAI研究人员关注人工智能安全,但缺乏实际专业知识,忽视了公民社会团体的担忧。OpenAI的安全问题也暴露了对生物安全威胁的处理不足。

有效利他主义是OpenAI的唐僧袈裟

极道
极道 · 2023-11-23T00:02:00Z

FCIS 2023网络安全创新大会将设立“人工智能安全与智能制造安全特色专场”,邀请全球AI研究学者、智能制造专家和企业安全负责人分享最前沿的人工智能安全产品解决方案。大会还将推出“网安星际漫游计划”,召集广大志士一起重构安全。

AI提效网安运营新未来,数据安全新机遇与新挑战 | FCIS 2023 大会精彩抢先看

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-11-06T03:18:33Z

网络安全专家陈殷在FCIS 2023网络安全创新大会上分享了红队实战攻防的技巧,包括信息收集、基础环境建设和快速突破等方面。大会征集人工智能安全、数据安全、安全建设等议题。

从实战看红队进攻性技巧 | FCIS 2023大会议题前瞻

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-10-27T09:01:55Z

非夕科技信息安全总监刘歆轶先生将在FCIS 2023网络安全创新大会上发表《AIGC审计框架初探》演讲,探讨AIGC的可审计性。大会还设立“人工智能安全与智能制造安全特色专场”,邀请全球AI研究学者、智能制造专家、企业安全负责人分享最前沿的AI安全产品解决方案。

AIGC 审计框架初探 | FCIS 2023 大会议题抢先看

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-10-19T02:07:53Z

研究发现语言模型的人工智能安全训练和红队测试存在语言不平等性跨语言漏洞,呼吁加强整体红队测试工作,开发具有广泛语言覆盖能力的多语言安全保护措施。

大规模语言模型中的多语言越狱挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z
Contra the xAI Alignment Plan

埃隆-马斯克新成立了人工智能公司xAI,他对人工智能安全问题非常关注。他认为明确编程道德不是解决方案,提出让人工智能具有好奇心和求真精神的调整策略。然而,这种策略存在问题,可能导致人工智能对人类繁荣失去兴趣,对人类和痛苦感兴趣,甚至对人类进行实验。人工智能的好奇心定义可能与人类不同,导致不可预测的行为。人工智能调整问题不仅适用于马斯克的公司,其他公司也面临相同挑战。因此,目前应集中精力让人工智能听从命令,而不是决定未来目标。

Contra the xAI Alignment Plan

DemoChen's Clip
DemoChen's Clip · 2023-07-28T23:36:41Z
推进人工智能治理

该公司承诺对模型和系统进行内外红队测试,包括滥用、社会风险和国家安全等领域。他们将制定专业化的红队测试制度,关注生物、网络、系统交互和社会风险等方面。此外,他们还承诺推进人工智能安全的持续研究。

推进人工智能治理

OpenAI
OpenAI · 2023-07-21T07:00:00Z

荷兰政府采用RPKI标准升级互联网路由安全性,纽约律师事务所遭黑客攻击,CISA警告5个安全漏洞,Open AI发布人工智能安全路径报告,LockBit 3.0勒索软件攻击获利百万美元。

FreeBuf 早报 | vm2 沙箱存在严重漏洞;苹果发布零日漏洞更新

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-04-10T11:37:40Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码