本文探讨了大型语言模型(LLMs)的红队测试,旨在发现和减少潜在危害。研究通过分析模型行为、建立不良行为标准和应用红队方法,识别可引发有毒言论的提示,并构建了包含20,000条声明的CommonClaim数据集。提出了ASSERT和MART等自动红队技术,以提升模型安全性。同时引入HarmBench框架,比较多种红队测试方法,增强LLMs的鲁棒性,推动攻击与防御的共同发展。
这篇论文介绍了Dreaddit文本语料库,包含19万条来自Reddit的帖子,旨在识别社交媒体中的压力表征。研究分析了抑郁症和焦虑症相关词汇,探讨了社交媒体上的有毒言论及其影响,并开发了可解释的心理健康分析开源模型。此外,研究还分析了MPox疫情期间的推文,揭示了在线毒性言论的特征和传播模式,为未来危机中的毒性减少提供了策略建议。
本文介绍了一个用于识别巴西葡萄牙语社交媒体有毒言论的新数据集,使用BERT模型取得76%的宏平均-F1分数。研究强调了多语言模型在社交媒体文本中检测仇恨言论的有效性,并提出了新的多语言数据集MultiClaim和X-CLAIM,展示了在低资源语言上训练的优势。研究还比较了调整模型与极大语言模型在可信度主张检测中的表现,结果显示调整模型在跨域设置中优于零样本方法。
完成下面两步后,将自动完成登录并继续当前操作。