小红花·文摘 - 小红花技术领袖俱乐部

面试经历 – 字节跳动测开实习 – 三进宫

面试经历 – 字节跳动测开实习 – 三进宫

HikariLan's Blog ·

该研究使用SafetyBench设计了一个综合评估大型语言模型安全性的基准测试工具，测试结果显示GPT-4表现突出，但当前大型语言模型的安全性仍有提升空间。

SafetyBench: 用多项选择题评估大型语言模型的安全性

BriefGPT - AI 论文速递 ·