小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种基于大语言模型的文本预处理和语义增强方法,旨在解决社交媒体中有效性下降的问题。研究表明,该方法在有害内容检测方面与人工标注数据相当,显著降低了成本。

基于大语言模型的有害内容检测语义增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究探讨了多语言越狱攻击,提出了一种新算法用于创建数据集,并评估多种语言模型的防御能力。结果表明,新策略将攻击成功率降低了96.2%。研究强调评估破解方法的重要性,并提出自我改进机制以提高模型安全性,降低计算成本,同时增强对有害内容的检测能力。

合并提升自我审查对抗越狱攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z
微软在首份负责任人工智能透明报告中表示已取得重大进展

微软发布了首份负责任人工智能透明报告,强调2023年在安全部署AI产品方面的成就。报告指出,微软创建了30个负责任AI工具,增强了团队,并要求生成性AI应用在开发过程中评估风险。此外,微软为Azure AI客户提供了检测有害内容的工具,并扩展了红队测试,以确保AI模型的安全性。尽管面临争议,微软仍致力于负责任AI的持续改进。

微软在首份负责任人工智能透明报告中表示已取得重大进展

The Verge
The Verge · 2024-05-02T22:56:24Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码