小红花·文摘

本文介绍了视觉语言模型（VLMs）和大型语言模型（LLMs）安全性研究的进展，包括BeaverTails数据集的创建，用于分析问答对的有用性和无害性，提升模型安全性。此外，研究探讨了GPT-4与人类安全感知的一致性，提出了简单而安全的提示工程方法（SSP），并介绍了针对文本到视频生成模型的幻觉检测框架SoraDetector。这些研究为模型的安全发展提供了重要资源。