小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种基于大语言模型的文本预处理和语义增强方法，旨在解决社交媒体中有效性下降的问题。研究表明，该方法在有害内容检测方面与人工标注数据相当，显著降低了成本。

基于大语言模型的有害内容检测语义增强

BriefGPT - AI 论文速递 ·

本研究探讨了多语言越狱攻击，提出了一种新算法用于创建数据集，并评估多种语言模型的防御能力。结果表明，新策略将攻击成功率降低了96.2%。研究强调评估破解方法的重要性，并提出自我改进机制以提高模型安全性，降低计算成本，同时增强对有害内容的检测能力。

合并提升自我审查对抗越狱攻击

BriefGPT - AI 论文速递 ·

微软在首份负责任人工智能透明报告中表示已取得重大进展

微软在首份负责任人工智能透明报告中表示已取得重大进展

The Verge ·