小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

CrowdStrike和Check Point分别收购了初创企业Pangea和Lakera,以增强其人工智能安全防护能力。Pangea专注于监控员工与AI工具的互动,而Check Point则提升其GenAI Protect工具,旨在保护企业的AI应用和数据安全。

CrowdStrike与Check Point通过收购扩展AI安全能力

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-16T14:03:42Z

本研究探讨大型语言模型的元认知能力,提出神经反馈范式以量化其激活模式的报告与控制能力。结果表明,LLMs能够学习这些能力,但受到示例数量和语义可解释性等因素的影响,揭示了其监测能力的局限性,为人工智能安全提供了实证依据。

语言模型具备元认知监控与控制其内部激活的能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本文批评性地评估了通过强化学习对齐人工智能与人类价值观的尝试,特别是大规模语言模型。指出当前对齐目标如诚实、无害和有帮助存在不足,揭示了RLxF技术在捕捉人类伦理复杂性和促进AI安全方面的局限性。文章呼吁在AI开发中采用更细致和反思的方法。

大型语言模型代理的道德对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

研究通过行为测试评估大语言模型的情境感知能力,创建了包含7个任务类别和超过13,000个问题的SAD基准测试集。评估了16个模型,发现聊天模型在SAD上表现更好,但在一般知识任务上没有优势。研究旨在量化情境感知能力,促进对模型的科学理解,并关注人工智能安全和控制的新风险。

MemSim:用于评估基于LLM的个人助理记忆能力的贝叶斯模拟器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

7月4日,上海举办了2024世界人工智能大会暨人工智能全球治理高级别会议。周伯文在会上发表演讲,阐述了他的新技术主张“人工智能45°平衡律”和上海人工智能实验室实现该主张的技术路径“可信AGI的因果之梯”。他强调了人工智能安全的重要性,呼吁在AI发展中追求安全与性能的平衡。他还介绍了上海人工智能实验室正在探索的以因果为核心的技术路径,称之为“可信AGI的因果之梯”。他希望通过这种技术思想体系,实现人工智能的安全与卓越性能的平衡。

WAIC 2024开幕,上海AI Lab主任、首席科学家周伯文提出“人工智能45°平衡律”

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-07-04T09:04:24Z

本文批评性评估了通过强化学习对齐人工智能系统的尝试,揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。文章强调了RLxF目标中的张力和矛盾,并讨论了道德相关问题。敦促研究人员和从业者在评估RLxF的社会技术后果时进行批判性评估。

通过人类反馈进行强化学习的 AI 对齐?矛盾和限制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

根据F5的数据显示,75%的企业正在实施人工智能,但72%的企业存在数据质量问题和无法扩展数据实践的问题。调查显示,只有24%的企业已经大规模实施了生成式人工智能技术。人工智能安全方面的主要问题包括攻击、数据隐私和数据泄露。企业在应对这些威胁时主要关注应用程序接口安全、监控和DDoS保护。

生成式人工智能技术的快速应用,引发企业内部担忧

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-06-19T03:46:46Z

2024年3月,全球网络安全市场共发生53起投融资事件,其中中国内4起,国外49起,投融资规模达亿元级别,占比7.55%。种子轮融资是主要轮次,人工智能安全领域受到投资者青睐。投资事件包括沐创、知其安、云起无垠、灰帽科技、Axonius、Nozomi Networks等。

FreeBuf 全球网络安全产业投融资观察(3月)

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2024-04-08T08:08:17Z

加密货币诈骗犯导致OpenAI危机,有效利他主义者被解雇,员工威胁辞职。OpenAI研究人员关注人工智能安全,但缺乏实际专业知识,忽视了公民社会团体的担忧。OpenAI的安全问题也暴露了对生物安全威胁的处理不足。

有效利他主义是OpenAI的唐僧袈裟

极道
极道 · 2023-11-23T00:02:00Z

FCIS 2023网络安全创新大会将设立“人工智能安全与智能制造安全特色专场”,邀请全球AI研究学者、智能制造专家和企业安全负责人分享最前沿的人工智能安全产品解决方案。大会还将推出“网安星际漫游计划”,召集广大志士一起重构安全。

AI提效网安运营新未来,数据安全新机遇与新挑战 | FCIS 2023 大会精彩抢先看

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-11-06T03:18:33Z

网络安全专家陈殷在FCIS 2023网络安全创新大会上分享了红队实战攻防的技巧,包括信息收集、基础环境建设和快速突破等方面。大会征集人工智能安全、数据安全、安全建设等议题。

从实战看红队进攻性技巧 | FCIS 2023大会议题前瞻

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-10-27T09:01:55Z

非夕科技信息安全总监刘歆轶先生将在FCIS 2023网络安全创新大会上发表《AIGC审计框架初探》演讲,探讨AIGC的可审计性。大会还设立“人工智能安全与智能制造安全特色专场”,邀请全球AI研究学者、智能制造专家、企业安全负责人分享最前沿的AI安全产品解决方案。

AIGC 审计框架初探 | FCIS 2023 大会议题抢先看

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-10-19T02:07:53Z

研究发现语言模型的人工智能安全训练和红队测试存在语言不平等性跨语言漏洞,呼吁加强整体红队测试工作,开发具有广泛语言覆盖能力的多语言安全保护措施。

大规模语言模型中的多语言越狱挑战

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z
Contra the xAI Alignment Plan

埃隆-马斯克新成立了人工智能公司xAI,他对人工智能安全问题非常关注。他认为明确编程道德不是解决方案,提出让人工智能具有好奇心和求真精神的调整策略。然而,这种策略存在问题,可能导致人工智能对人类繁荣失去兴趣,对人类和痛苦感兴趣,甚至对人类进行实验。人工智能的好奇心定义可能与人类不同,导致不可预测的行为。人工智能调整问题不仅适用于马斯克的公司,其他公司也面临相同挑战。因此,目前应集中精力让人工智能听从命令,而不是决定未来目标。

Contra the xAI Alignment Plan

DemoChen's Clip
DemoChen's Clip · 2023-07-28T23:36:41Z
推进人工智能治理

该公司承诺对模型和系统进行内外红队测试,包括滥用、社会风险和国家安全等领域。他们将制定专业化的红队测试制度,关注生物、网络、系统交互和社会风险等方面。此外,他们还承诺推进人工智能安全的持续研究。

推进人工智能治理

OpenAI
OpenAI · 2023-07-21T07:00:00Z

荷兰政府采用RPKI标准升级互联网路由安全性,纽约律师事务所遭黑客攻击,CISA警告5个安全漏洞,Open AI发布人工智能安全路径报告,LockBit 3.0勒索软件攻击获利百万美元。

FreeBuf 早报 | vm2 沙箱存在严重漏洞;苹果发布零日漏洞更新

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2023-04-10T11:37:40Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码