小红花·文摘

What Is AI-Native Infrastructure?

云原生 ·

谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

InfoQ ·

忏悔如何让语言模型保持诚实

OpenAI ·

本研究提出了一种将概念层集成到大语言模型的方法，以解决可解释性和可干预性不足的问题。该方法通过投影和重构，无需人工选择概念集，能够在多任务中保持性能并有效干预，显示出在调整模型行为方面的良好潜力。

新方法揭示了人工智能模型如何处理蛋白质序列，并实现对预测的控制

DEV Community ·

本文探讨了大型语言模型的激活引导技术，提出了一种名为Activation Addition (ActAdd)的方法，通过修改激活预测性地改变模型行为。研究表明，激活工程能够有效引导模型输出特定风格，并提升编程模型的鲁棒性和准确性。此外，Contrastive Activation Addition（CAA）方法显著改善了模型行为控制，超越了传统微调方法。研究还提出了后门激活攻击框架，展示了其在对齐任务中的有效性。

利用动态激活组合对大型语言模型进行多属性调控

BriefGPT - AI 论文速递 ·

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间，但这两个目标是不同的，可能会导致虚假的解释感觉。研究还展示了实践中支持该现象普遍存在的证据。然而，亚空间激活干预在可解释性方面仍然适用。

对 Makelov 等人（2023 年）的 “可解释性幻觉” 论点的回应

BriefGPT - AI 论文速递 ·

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间，但这两个目标是不同的，可能导致虚假解释感觉。研究还发现亚空间干预可能是通过激活与模型输出因果断开的并行路径来实现的。然而，这并不意味着亚空间激活干预在可解释性方面本质上不适用。研究还探讨了需要的额外证据来论证修补的亚空间是否忠实。