BriefGPT - AI 论文速递 ·

Aegis2.0：多样化的人工智能安全数据集和对齐风险分类法，以便为大型语言模型护栏提供支持

📝

内容提要

本研究解决了大型语言模型（LLMs）相关的安全风险方面缺乏高质量人类标注数据集的问题。我们提出了一种全面且适应性强的风险分类法，并使用混合数据生成管道创建了Aegis 2.0数据集，包含34,248个经过注释的人机交互样本。最重要的发现显示，多种轻量级模型在使用Aegis 2.0训练后能够在安全性表现上与主流模型相媲美，为LLMs的安全防护提供了有效解决方案。

🏷️

继续阅读

OpenClaw加三层护栏两个月跑出快乐流水线！
吃饱了撑的才信AI自己会干活！ OpenClaw加三层定制包装，一个管流量闸门一个管任务清单一个管记忆体，两个月跑下来发现AI干活最要命的问题是它干砸了连...
人工智能带来的生产力提升更接近 10%，而非10倍！
研发团队用了AI编程工具，代码产量中位数只涨了百分之八。四百多家公司两整年的数据砸到脸上，AI工具使用率飙升六成五，写代码速度才挪了不到八个百分点。技术...
刚刚，MCP协议迎来“史上最大更新”：State彻底消失，Claude率先适配支持
MCP协议迎来自诞生以来最大规模的规范升级——2026-07-28版本正式发布，核心架构从有状态转为无状态，砍掉握手与会话机制，引入多轮往返请求（MRTR...
数据集汇总丨从竞赛数学到工具调用，MIT/NVIDIA/华中科大等开源9个数学数据集，覆盖 CoT 、多模态推理与长链思维训练
数学推理已成为衡量大语言模型（LLM）智能水平的核心指标。从算术计算到奥林匹克级问题，再到多步规划与工具调用，模型正从「给出答案」迈向「理解问题并完成推理...
超越OpenAI、Anthropic！国产AI安全智能体杀进全球前四、国内第一
AI开始组团“挖漏洞”
俄罗斯指控Telegram创始人协助(乌兰克)进行恐怖主义活动已发布国际通缉令
#行业资讯俄罗斯指控 Telegram 创始人帕维尔杜罗夫协助恐怖主义活动，目前已通过国际刑警组织向杜罗夫发出国际通缉令。俄罗斯称 Telegram 长...

内容提要

标签

继续阅读