小红花·文摘

本研究探讨了大型语言模型（LLMs）在隐私泄露、幻觉输出和价值失调等方面的内在风险及其恶意使用现象。论文提供了一个统一框架，综述了针对这些问题的缓解策略，涵盖数据收集、预训练、微调、推理及后处理的最新进展，旨在提升LLMs在隐私保护和减少幻觉等方面的表现。