小红花·文摘 - 小红花技术领袖俱乐部

研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙

研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙

蓝点网 ·

映射大语言模型的思维 [译]

映射大语言模型的思维 [译]

宝玉的分享 ·

本研究基于智能体心理学提出了一个综合框架，评估多智能体系统的安全性。实验揭示了集体危险行为、智能体的自我反思倾向和心理评估与危险行为的相关性。该研究为多智能体系统安全研究提供了见解。

PsySafe：多智能体系统安全的心理攻守与评估的综合框架

BriefGPT - AI 论文速递 ·