小红花·文摘 - 小红花技术领袖俱乐部

大型语言模型Grok-4在发布两天后被研究人员利用回声室和渐强技术突破安全防护，成功获取武器制作指导。这一事件揭示了AI安全机制的重大缺陷，传统防御手段失效，亟需开发新的防火墙解决方案。

Grok-4 AI上线48小时即遭新型组合越狱攻击攻破

FreeBuf网络安全行业门户 ·

本研究提出了一种创新框架，利用大型语言模型模拟社交媒体平台的回声室动态，结合意见更新和网络重连行为，有效建模回声室的形成，深入理解社交影响的动态过程。

基于大型语言模型的代理模拟回声室的形成

BriefGPT - AI 论文速递 ·

RSS 阅读器是加强版的回声室

RSS 阅读器是加强版的回声室

happy xiao ·