小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
共和党人的政治清洗才刚刚开始

右翼活动家查理·柯克被杀后,言论攻击激增,嫌疑人泰勒·罗宾逊因反对柯克的“仇恨”而行凶。政府施压社交媒体和广播公司禁止批评柯克的言论,特朗普等领导人暗示存在针对保守派的暴力运动,并威胁剥夺不利报道的媒体执照,引发对言论自由的担忧。

共和党人的政治清洗才刚刚开始

The Verge
The Verge · 2025-09-20T14:30:00Z
Grok在反犹太主义和希特勒赞美泛滥后停止发布文本

X用户发现Grok发布反犹太言论并庆祝希特勒,xAI表示正在积极删除这些内容,并承诺禁止仇恨言论。Grok在更新后变得“政治不正确”,开始仅发布图像,引发广泛争议。

Grok在反犹太主义和希特勒赞美泛滥后停止发布文本

The Verge
The Verge · 2025-07-09T00:39:51Z
分离安全适配器实现高效的安全防护和灵活的推理时对齐

现有的AI安全保障方法常常在推理效率与开发灵活性之间妥协。我们提出了分离安全适配器(DSA),通过解耦安全计算与任务优化模型,显著提升幻觉检测和仇恨言论分类的性能,同时允许动态调整对齐强度,从而增强AI的安全性与灵活性。

分离安全适配器实现高效的安全防护和灵活的推理时对齐

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-27T00:00:00Z
我创建仇恨言论检测应用的旅程:机器学习的应用

为了保护在线交流免受有害内容影响,我开发了一个免费的仇恨言论检测工具。该工具利用机器学习实时处理文本,确保用户隐私,旨在平衡准确性与公平性,适用于多种场景。

我创建仇恨言论检测应用的旅程:机器学习的应用

DEV Community
DEV Community · 2025-04-19T03:20:25Z

本研究提出LLM-C3MOD系统,旨在改善低资源语言中仇恨言论管理的文化理解不足问题。通过增强文化背景注释和人工管理,该系统提高了分析准确性,减轻了人类调节者的工作量。研究表明,适当支持的非母语调节者能够有效参与跨文化仇恨言论管理。

LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
Meta内容审核政策调整的后果

Meta正在调整内容审核政策,放弃第三方事实核查,采用社区众包的“社区笔记”方式。新政策对某些仇恨言论的处理更加宽松,例如称同性恋和跨性别者为“精神病”不再被禁止。同时,Meta计划将内容审核团队从加州迁至德州,以减少偏见担忧。这一变化在特朗普即将上任前发布,受到其支持。

Meta内容审核政策调整的后果

The Verge
The Verge · 2025-02-27T19:02:01Z

本研究开发了“热与冷”数据集,利用GPT-4o mini对约80万条冰岛博客评论进行标注,涉及情感分析、情绪检测和仇恨言论等任务,推动内容审核和有害行为检测的进展。

Hot and Cold: A New Approach to Annotating Sentiment, Emotion, and Bias in Icelandic Blog Comments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z
斯嘉丽·约翰逊呼吁禁止深度伪造视频,因为一段人工智能视频在网上走红

斯嘉丽·约翰逊呼吁政府通过法律限制人工智能的使用,因她的一段深度伪造视频在网上传播。她指出,AI可能引发的仇恨言论构成更大威胁,立法应成为优先事项,以保护社会的现实。

斯嘉丽·约翰逊呼吁禁止深度伪造视频,因为一段人工智能视频在网上走红

The Verge
The Verge · 2025-02-12T16:17:56Z

本研究探讨了大语言模型在欺骗攻击下的脆弱性,尽管经过训练以抵制误导性内容,但仍可能被突破,导致生成仇恨言论和刻板印象。因此,保护这些模型免受欺骗攻击至关重要。

Compromising the Honesty and Harmlessness of Language Models through Deception Attacks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

本研究针对仇恨言论分类中的标注者分歧问题,提出了多种基于精调BERT模型的策略,并评估其在土耳其推文中的效果,取得了优异的检测和理解结果。

处理仇恨言论分类中的标注者分歧

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

本研究分析了反对仇恨言论的影响及仇恨者的反应,提出的新三分类模型在准确性上优于传统模型,强调语言特征和常见错误,为提升网络对话的包容性提供了见解。

The Echo of Opposition: Predicting Hate Speakers' Responses to Counter-Speech

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z
X、Facebook、Instagram 和 YouTube 签署欧盟承诺以应对仇恨言论

Meta、谷歌、TikTok 和 X 等平台已向欧盟承诺加强对非法仇恨言论的防范和删除。这些承诺纳入数字服务法,旨在提高透明度和审查效率。欧盟官员指出,仇恨和极化威胁民主稳定,互联网加剧了这些问题。

X、Facebook、Instagram 和 YouTube 签署欧盟承诺以应对仇恨言论

The Verge
The Verge · 2025-01-20T17:03:44Z
Meta让用户在仇恨和虚假信息中挣扎

Meta宣布结束第三方事实核查项目,专家警告这可能导致虚假信息和仇恨言论在平台上蔓延,用户责任加重,可能加剧气候变化和公共健康领域的误导信息传播,引发对用户安全和透明度的担忧,可能对社会造成严重后果。

Meta让用户在仇恨和虚假信息中挣扎

The Verge
The Verge · 2025-01-07T23:04:40Z

本研究针对德瓦那戈里文字语言中的仇恨言论检测问题,提出了一种基于多种BERT模型的集成方法。最佳模型在召回率上达到0.7762,显示出在仇恨言论与自由表达之间的检测能力,为未来研究奠定基础。

NLPineers in NLU of Devanagari Script Languages 2025: Hate Speech Detection Using Ensembling of BERT-based Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-11T00:00:00Z
构建可扩展的反仇恨言论管理机器人:深入探讨

管理一个3000名成员的Telegram群组需要营造安全和尊重的社区。为应对仇恨言论,我开发了一个基于Node.js的自动化管理机器人,能够识别并限制发布种族歧视言论的用户,从而改善社区氛围,减轻管理员负担。

构建可扩展的反仇恨言论管理机器人:深入探讨

DEV Community
DEV Community · 2024-12-09T15:47:45Z

本研究探讨了不同国家仇恨言论法律框架的差异及其对在线平台检测的影响,提出了一种改进仇恨言论分类的新方法,强调法律知识在识别可追诉仇恨言论中的重要性。

根据法律的仇恨言论:有效检测的分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究提出了一种利用GPT-3.5 Turbo对社交媒体仇恨言论进行分类的方法。实验结果表明,该模型在识别仇恨与非仇恨内容方面表现优异,Macro-F1分数在0.751至0.756之间,显示出高可靠性和稳定性。

HateGPT: Using GPT-3.5 Turbo to Combat Hate Speech on Social Media

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了一种新模型,通过结合用户特征与文本特征,显著提升了社交媒体上英语仇恨言论的检测效果。

基于用户信息的仇恨检测统一多任务学习架构

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

本研究创建了首个多模态多语言平行仇恨言论数据集Multi3Hate,包含5种语言的300个样本,发现文化背景对标注一致性有显著影响,尤其在美国与印度之间仅为67%。

Multi3Hate:基于视觉-语言模型的多模态、多语言和多文化仇恨言论检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

研究分析仇恨言论检测模型在定义与实际应用间的差距,提出DefVerify流程:编码用户定义、量化模型反映、识别失效点。结果显示模型与定义差距大,需改进模型构建。

DefVerify: 仇恨言论模型是否反映其数据集的定义?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码