小红花·文摘

本研究提出了中文安全基准（ChineseSafe），用于评估大型语言模型识别不安全内容的能力。基准包含205,034个示例，涵盖政治敏感性和色情等非法内容类型。研究发现，大多数大型语言模型在安全问题上存在脆弱性，可能面临法律风险，并为开发者提供了改进建议。