Apple Machine Learning Research ·

低语专家：通过抑制专家神经元减轻预训练语言模型中的有害性

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

该文章介绍了一种减轻大型语言模型生成有害语言的方法，通过识别神经元对有害句子的区分能力，减少其激活水平来减轻有害语言。作者提出了AUROC适应（AURA）方法，可应用于任何预训练的大型语言模型。实验证明，AURA可将有害性减少2.2倍，仅增加0.72的困惑度。AURA在不同规模的模型上都有效，并保留了常识零样本能力。AURA可与预提示策略结合，将平均减轻潜力从1.28倍提升至2.35倍。此外，AURA还可对抗恶意预提示引发的有害内容，成为一种有效的部署更安全、更少有害模型的方法。

🎯

关键要点

大型语言模型（LLMs）生成有害语言的问题
通过识别神经元对有害句子的区分能力来减轻有害语言
提出AUROC适应（AURA）方法，适用于任何预训练的LLM
AURA可将有害性减少2.2倍，困惑度仅增加0.72
AURA在不同规模的模型上有效，保留常识零样本能力
AURA可与预提示策略结合，减轻潜力从1.28倍提升至2.35倍
AURA能对抗恶意预提示引发的有害内容
AURA是一种有效的部署更安全、更少有害模型的方法

❓

延伸问答

AURA方法是如何减轻语言模型中的有害性？

AURA方法通过识别神经元对有害句子的区分能力，减少其激活水平，从而减轻有害语言。

AURA方法的有效性如何？

AURA可以将有害性减少2.2倍，且仅增加0.72的困惑度，适用于不同规模的模型。

AURA方法与预提示策略结合后有什么效果？

与预提示策略结合后，AURA的平均减轻潜力从1.28倍提升至2.35倍。

AURA方法能否应用于不同规模的语言模型？

是的，AURA在不同规模的模型上（从1.5B到40B参数）都有效。

AURA方法如何应对恶意预提示引发的有害内容？

AURA能够对抗恶意预提示，防止其引发的有害内容。

大型语言模型生成有害语言的主要问题是什么？

大型语言模型的主要问题是它们能够生成有毒语言，这对用户和社会造成潜在危害。

🏷️

继续阅读

使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
人工智能论文评审：通过人类反馈训练语言模型以遵循指令（InstructGPT）
GPT-3在自然语言处理上取得了重大突破，但未能有效转化为助手。为此，OpenAI推出了InstructGPT，通过人类反馈训练模型更好地遵循指令，强调模...
亚马逊的新游戏计划：詹姆斯·邦德与人工智能史努比狗
亚马逊正在调整游戏战略，专注于云游戏和休闲游戏，特别是通过Luna平台。公司计划推出以詹姆斯·邦德为主题的游戏，并强调视频游戏与影视内容的结合，旨在吸引更...
Asana称其新的AI“首席助理”将您的Slack混乱转化为可追踪的工作
Asana在伦敦的工作创新峰会上推出了名为Dash的AI助手，旨在提升工作管理平台的效率。Dash能够从会议、Slack和邮件中捕捉待办事项，并将其转化为...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...