小红花·文摘

MIT News - Artificial intelligence ·

OpenAI ·

本研究提出了一种优化医疗领域大语言模型（LLM）数据预处理和训练的新方法，强调模型的安全性和有效性。研究结果表明，芦荟家族模型在医疗基准测试中表现优异，能够有效抵御攻击，推动医疗LLM伦理标准的建立。

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型中的幻觉现象，提出了一种基于提示的框架，通过幻觉诱导提示和量化提示系统性触发和量化幻觉。研究发现不同模型的回应一致性和幻觉程度存在显著差异，为研究幻觉脆弱性提供了测试平台，并为开发更安全的模型奠定基础。

BriefGPT - AI 论文速递 ·

本研究分析了监狱逃脱攻击的防御方法，提出了安全性转移和有害性辨别两种机制，并开发了交互机制集成和内部机制集成策略，以优化安全性与实用性的平衡。实验结果表明，这些方法有效提升了模型的安全性。

BriefGPT - AI 论文速递 ·

宝玉的分享 ·

机器之心 ·

MIT News - Artificial intelligence ·

本研究针对开源大型语言模型的毒性输出问题，提出了新的数据策划流程和ToxicCommons数据集，并构建了Celadon分类器，以提高有害内容的检测效率，显著增强模型安全性。

BriefGPT - AI 论文速递 ·

本文研究大型语言模型在文本生成中的语言混淆现象，提出“语言混淆熵”作为量化指标，探讨其与模型安全性的关系，并提供基于语言相似性的解决方案。

BriefGPT - AI 论文速递 ·

本研究提出了一种元忘却方法，解决扩散模型在恶意微调后重新学习已忘记概念的问题。该方法有效防止无害概念被重新学习，增强模型安全性，并探讨了概念去除和对抗训练的应用，提出新的评估指标提升模型遗忘能力和生成质量。

BriefGPT - AI 论文速递 ·

本研究提出使用权重曲率指数（WCI）来分析对抗鲁棒性泛化问题。WCI量化模型对抗扰动的脆弱性，帮助设计更坚固的深度学习模型，提高模型的可靠性和安全性。

BriefGPT - AI 论文速递 ·

本研究发现修剪神经元中的概念显著性和相似性可快速恢复修剪后的性能，并在单个神经元中融合新旧概念。然而，永久概念移除以改善模型安全性仍面临挑战。监控概念再出现并减轻对不安全概念的再学习将是更强健的模型编辑的重要方向。总体而言，本研究展示了概念表征在概念移除后的语言模型中的弹性和流动性。

BriefGPT - AI 论文速递 ·

本文研究了深度学习模型的脆弱性和攻击方式，提出了SparseEvo算法，并应用于卷积深度神经网络和视觉Transformer模型的评估。SparseEvo具有更高的攻击效率，但仍需进一步研究以增强模型安全性。

BriefGPT - AI 论文速递 ·

本文提出了强调帮助而非安全性的模型安全性担忧，指出经过指示调优的模型高度不安全。研究发现，训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例可以显著提高其安全性。过度的安全调优会使模型拒绝对表面上类似不安全的合理提示作出回应。

BriefGPT - AI 论文速递 ·