小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了多语言模型中是否存在独立于特定语言的通用概念表征。通过激活修补技术，研究发现可以在不改变语言的情况下更改概念，并且对不同语言的激活平均处理能够提升翻译性能，证实了语言无关的概念表征的存在。

Separating Language from Thought: Activation Patching Reveals Language-Agnostic Concept Representations in Transformers

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的概念擦除方法，通过更新文本编码器和对抗训练，实现快速且自然的概念擦除。研究表明，现有方法无法完全抹除目标概念，强调了概念消除的脆弱性。所提出的框架在去除不良概念的同时，保留了模型性能，展示了概念表征的弹性和流动性。

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

BriefGPT - AI 论文速递 ·