CrowdStrike和Check Point分别收购了初创企业Pangea和Lakera,以增强其人工智能安全防护能力。Pangea专注于监控员工与AI工具的互动,而Check Point则提升其GenAI Protect工具,旨在保护企业的AI应用和数据安全。
本研究探讨大型语言模型的元认知能力,提出神经反馈范式以量化其激活模式的报告与控制能力。结果表明,LLMs能够学习这些能力,但受到示例数量和语义可解释性等因素的影响,揭示了其监测能力的局限性,为人工智能安全提供了实证依据。
本文批评性地评估了通过强化学习对齐人工智能与人类价值观的尝试,特别是大规模语言模型。指出当前对齐目标如诚实、无害和有帮助存在不足,揭示了RLxF技术在捕捉人类伦理复杂性和促进AI安全方面的局限性。文章呼吁在AI开发中采用更细致和反思的方法。
研究通过行为测试评估大语言模型的情境感知能力,创建了包含7个任务类别和超过13,000个问题的SAD基准测试集。评估了16个模型,发现聊天模型在SAD上表现更好,但在一般知识任务上没有优势。研究旨在量化情境感知能力,促进对模型的科学理解,并关注人工智能安全和控制的新风险。
7月4日,上海举办了2024世界人工智能大会暨人工智能全球治理高级别会议。周伯文在会上发表演讲,阐述了他的新技术主张“人工智能45°平衡律”和上海人工智能实验室实现该主张的技术路径“可信AGI的因果之梯”。他强调了人工智能安全的重要性,呼吁在AI发展中追求安全与性能的平衡。他还介绍了上海人工智能实验室正在探索的以因果为核心的技术路径,称之为“可信AGI的因果之梯”。他希望通过这种技术思想体系,实现人工智能的安全与卓越性能的平衡。
本文批评性评估了通过强化学习对齐人工智能系统的尝试,揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。文章强调了RLxF目标中的张力和矛盾,并讨论了道德相关问题。敦促研究人员和从业者在评估RLxF的社会技术后果时进行批判性评估。
根据F5的数据显示,75%的企业正在实施人工智能,但72%的企业存在数据质量问题和无法扩展数据实践的问题。调查显示,只有24%的企业已经大规模实施了生成式人工智能技术。人工智能安全方面的主要问题包括攻击、数据隐私和数据泄露。企业在应对这些威胁时主要关注应用程序接口安全、监控和DDoS保护。
2024年3月,全球网络安全市场共发生53起投融资事件,其中中国内4起,国外49起,投融资规模达亿元级别,占比7.55%。种子轮融资是主要轮次,人工智能安全领域受到投资者青睐。投资事件包括沐创、知其安、云起无垠、灰帽科技、Axonius、Nozomi Networks等。
加密货币诈骗犯导致OpenAI危机,有效利他主义者被解雇,员工威胁辞职。OpenAI研究人员关注人工智能安全,但缺乏实际专业知识,忽视了公民社会团体的担忧。OpenAI的安全问题也暴露了对生物安全威胁的处理不足。
FCIS 2023网络安全创新大会将设立“人工智能安全与智能制造安全特色专场”,邀请全球AI研究学者、智能制造专家和企业安全负责人分享最前沿的人工智能安全产品解决方案。大会还将推出“网安星际漫游计划”,召集广大志士一起重构安全。
网络安全专家陈殷在FCIS 2023网络安全创新大会上分享了红队实战攻防的技巧,包括信息收集、基础环境建设和快速突破等方面。大会征集人工智能安全、数据安全、安全建设等议题。
非夕科技信息安全总监刘歆轶先生将在FCIS 2023网络安全创新大会上发表《AIGC审计框架初探》演讲,探讨AIGC的可审计性。大会还设立“人工智能安全与智能制造安全特色专场”,邀请全球AI研究学者、智能制造专家、企业安全负责人分享最前沿的AI安全产品解决方案。
研究发现语言模型的人工智能安全训练和红队测试存在语言不平等性跨语言漏洞,呼吁加强整体红队测试工作,开发具有广泛语言覆盖能力的多语言安全保护措施。
埃隆-马斯克新成立了人工智能公司xAI,他对人工智能安全问题非常关注。他认为明确编程道德不是解决方案,提出让人工智能具有好奇心和求真精神的调整策略。然而,这种策略存在问题,可能导致人工智能对人类繁荣失去兴趣,对人类和痛苦感兴趣,甚至对人类进行实验。人工智能的好奇心定义可能与人类不同,导致不可预测的行为。人工智能调整问题不仅适用于马斯克的公司,其他公司也面临相同挑战。因此,目前应集中精力让人工智能听从命令,而不是决定未来目标。
该公司承诺对模型和系统进行内外红队测试,包括滥用、社会风险和国家安全等领域。他们将制定专业化的红队测试制度,关注生物、网络、系统交互和社会风险等方面。此外,他们还承诺推进人工智能安全的持续研究。
荷兰政府采用RPKI标准升级互联网路由安全性,纽约律师事务所遭黑客攻击,CISA警告5个安全漏洞,Open AI发布人工智能安全路径报告,LockBit 3.0勒索软件攻击获利百万美元。
完成下面两步后,将自动完成登录并继续当前操作。