小红花·文摘

共和党人的政治清洗才刚刚开始

The Verge ·

Grok在反犹太主义和希特勒赞美泛滥后停止发布文本

The Verge ·

分离安全适配器实现高效的安全防护和灵活的推理时对齐

Apple Machine Learning Research ·

我创建仇恨言论检测应用的旅程：机器学习的应用

DEV Community ·

本研究提出LLM-C3MOD系统，旨在改善低资源语言中仇恨言论管理的文化理解不足问题。通过增强文化背景注释和人工管理，该系统提高了分析准确性，减轻了人类调节者的工作量。研究表明，适当支持的非母语调节者能够有效参与跨文化仇恨言论管理。

LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation

BriefGPT - AI 论文速递 ·

Meta内容审核政策调整的后果

The Verge ·

本研究开发了“热与冷”数据集，利用GPT-4o mini对约80万条冰岛博客评论进行标注，涉及情感分析、情绪检测和仇恨言论等任务，推动内容审核和有害行为检测的进展。

Hot and Cold: A New Approach to Annotating Sentiment, Emotion, and Bias in Icelandic Blog Comments

BriefGPT - AI 论文速递 ·

斯嘉丽·约翰逊呼吁禁止深度伪造视频，因为一段人工智能视频在网上走红

The Verge ·

本研究探讨了大语言模型在欺骗攻击下的脆弱性，尽管经过训练以抵制误导性内容，但仍可能被突破，导致生成仇恨言论和刻板印象。因此，保护这些模型免受欺骗攻击至关重要。

Compromising the Honesty and Harmlessness of Language Models through Deception Attacks

BriefGPT - AI 论文速递 ·

本研究针对仇恨言论分类中的标注者分歧问题，提出了多种基于精调BERT模型的策略，并评估其在土耳其推文中的效果，取得了优异的检测和理解结果。

处理仇恨言论分类中的标注者分歧

BriefGPT - AI 论文速递 ·

本研究分析了反对仇恨言论的影响及仇恨者的反应，提出的新三分类模型在准确性上优于传统模型，强调语言特征和常见错误，为提升网络对话的包容性提供了见解。

The Echo of Opposition: Predicting Hate Speakers' Responses to Counter-Speech

BriefGPT - AI 论文速递 ·

X、Facebook、Instagram 和 YouTube 签署欧盟承诺以应对仇恨言论

The Verge ·

Meta让用户在仇恨和虚假信息中挣扎

The Verge ·

本研究针对德瓦那戈里文字语言中的仇恨言论检测问题，提出了一种基于多种BERT模型的集成方法。最佳模型在召回率上达到0.7762，显示出在仇恨言论与自由表达之间的检测能力，为未来研究奠定基础。

NLPineers in NLU of Devanagari Script Languages 2025: Hate Speech Detection Using Ensembling of BERT-based Models

BriefGPT - AI 论文速递 ·

构建可扩展的反仇恨言论管理机器人：深入探讨

DEV Community ·

本研究探讨了不同国家仇恨言论法律框架的差异及其对在线平台检测的影响，提出了一种改进仇恨言论分类的新方法，强调法律知识在识别可追诉仇恨言论中的重要性。

根据法律的仇恨言论：有效检测的分析

BriefGPT - AI 论文速递 ·

本研究提出了一种利用GPT-3.5 Turbo对社交媒体仇恨言论进行分类的方法。实验结果表明，该模型在识别仇恨与非仇恨内容方面表现优异，Macro-F1分数在0.751至0.756之间，显示出高可靠性和稳定性。

HateGPT: Using GPT-3.5 Turbo to Combat Hate Speech on Social Media

BriefGPT - AI 论文速递 ·

本研究提出了一种基于用户信息的多任务学习架构，以提高社交媒体上英语仇恨言论的检测效果。实验结果表明，结合用户特征与文本特征显著提升了检测性能，展示了该方法在仇恨内容过滤中的潜力。

A Unified Multi-Task Learning Architecture for Hate Detection Based on User Information

BriefGPT - AI 论文速递 ·

本研究分析了社交媒体上对候选人的仇恨言论，建立了标注任务并评测分类器性能。探讨了政治家推文的负面情绪传播趋势，分析了南非选举期间的情感和主题，提出了新的情感分析数据集和方法，强调了大型语言模型在政治文本情感分析中的应用。

使用预训练语言模型分析西班牙政党推文的情感

BriefGPT - AI 论文速递 ·

本研究创建了首个多模态多语言平行仇恨言论数据集Multi3Hate，包含5种语言的300个样本，发现文化背景对标注一致性有显著影响，尤其在美国与印度之间仅为67%。

Multi3Hate：基于视觉-语言模型的多模态、多语言和多文化仇恨言论检测

BriefGPT - AI 论文速递 ·