小红花·文摘

本研究提出了一种新的客观框架，通过压力水平作为毒性指标，解决了毒性检测中的模糊定义问题，并验证了新定义和训练方法的有效性。

毒性重新定义：一种基于压力水平检测的客观和上下文感知方法

BriefGPT - AI 论文速递 ·

本研究提出了一种新框架，通过知识蒸馏和注入，提升在线多模态环境中对仇恨meme的毒性检测性能。实验结果表明，该方法在多个数据集上超越现有技术，显著改善了模型识别毒性内容的能力，有助于创建更安全的在线环境。

Just KIDDIN: Knowledge Infusion and Distillation for Toxic Meme Detection

BriefGPT - AI 论文速递 ·

这篇论文探讨了使用开源Llama 2模型检测线上语言滥用的方法，显示其在内容审核和毒性检测中的高效性。研究发现，模型规模的增加对性能提升有限，而不同提示策略能显著提高检测效果。未来需关注模型的安全性和多样化标签，以改善仇恨言论检测的准确性。

DetoxBench：大型语言模型多任务欺诈与滥用检测基准

BriefGPT - AI 论文速递 ·

该研究探讨了有害网络迷因，提出了新的分类方法和数据集HarMeme，强调多模态信号在检测中的重要性。研究还分析了网络毒性检测的复杂性，提出了MOMENTA深度神经网络方法，显示出优于现有方法的性能，并探讨了用户对毒性内容的期望，为改进毒性分类器的设计提供了方向。

毒性模因：关于检测和解释模因毒性的计算视角调查

BriefGPT - AI 论文速递 ·

本文评估了多种语言模型在检测有害内容方面的能力，发现它们在判断毒性和识别微妙攻击时存在困难。研究提出了改进策略，强调数据选择的重要性，并开发了多语言安全基准，以提高模型的安全性和减少偏见。这些发现旨在指导AI系统的监管和改进。

PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估

BriefGPT - AI 论文速递 ·

本文介绍了一种基于强化学习的去毒性方法Reinforce-Detoxify，该方法能够有效检测有毒内容并减轻社会身份偏见。研究表明，该方法在生成内容时比现有技术更少偏见。此外，文章探讨了毒性检测模型的发展及其防御机制，强调了评估语言模型毒性的复杂性和重要性。

追索索偿：与生成语言模型对话

BriefGPT - AI 论文速递 ·

MinTox是一种新型流水线，旨在识别和减轻翻译中的毒性问题。它通过多模态毒性检测分类器显著降低翻译中的毒性，同时保持翻译质量。研究探讨了不同去毒性策略及其对模型偏差的影响，并提出了基于强化学习的去毒性方法，效果优于现有技术。

从一到多：扩大语言模型中毒素缓解的范围

BriefGPT - AI 论文速递 ·

本文介绍了PingCAP如何使用Generative AI构建企业专属知识库的用户助手机器人，通过few shot方法判断毒性，点踩比例低于5%。讨论了Generative AI的能力和限制，并提出解决需求二和需求三的方法。通过向量数据库和语言模型进行毒性检测，实现回答细分领域知识和限定回答领域的功能。提到了TiDB Bot的上线效果和后续优化计划。

TiDB Bot：用 Generative AI 构建企业专属的用户助手机器人

TiDB_PingCAP 的博客 ·