BriefGPT - AI 论文速递 ·

AustroTox：用于基于目标的奥地利德语冒犯性语言检测的数据集

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

本文介绍了韩国冒犯性语言数据集（KOLD），包含40,429个注释评论，适用于韩文BERT和RoBERTa模型的训练。研究表明，提供上下文信息显著提升了模型在冒犯性检测和目标分类任务中的性能。

🎯

关键要点

韩国冒犯性语言数据集（KOLD）包含40,429个分层注释的评论。
这些注释评论用于韩文BERT和RoBERTa模型的训练，效果显著。
提供上下文信息显著提高了模型在冒犯性检测、目标分类和目标组分类任务中的性能。
在冒犯性检测中性能提升0.3，在目标分类中提升1.5，在目标组分类中提升13.1。

❓

延伸问答

韩国冒犯性语言数据集（KOLD）包含多少个评论？

KOLD包含40,429个分层注释的评论。

KOLD数据集用于哪些模型的训练？

KOLD数据集用于韩文BERT和RoBERTa模型的训练。

提供上下文信息对模型性能的影响如何？

提供上下文信息显著提高了模型在冒犯性检测、目标分类和目标组分类任务中的性能。

在冒犯性检测中，模型性能提升了多少？

在冒犯性检测中，模型性能提升了0.3。

KOLD数据集的注释方式是什么？

KOLD数据集包含分层注释的评论。

KOLD数据集在目标组分类中的性能提升是多少？

在目标组分类中，性能提升了13.1。

🏷️

标签

BERT RoBERTa 冒犯性语言数据集韩国

➡️

继续阅读

早报｜iPhone 20 Pro Max或搭载约7英寸屏幕/曝小米上调今年手机出货目标至1.1亿部/Gemini 3.6 Flash发布,输出Token减少17%
· 曝苹果正打样约 7 英寸屏幕，或用于 iPhone 20 Pro Max · 曝小米上调今年手机出货目标至 1.1 亿部 · 张一鸣向芳梅公益基金追加...
维特根斯坦语言游戏：彻底击碎本质主义思维陷阱
语言游戏揭穿本质主义骗局，你还在找事物的唯一答案吗？你还在追问本质吗？维特根斯坦的哲学颠覆了传统本质主义，他通过语言游戏和家族相似性概念指出，事物没有固...
开普勒轨道定律隐藏宇宙审美密码：科学家为何集体沉迷公式美感？
92%的科学家承认被数学公式的美震撼过，但谁规定宇宙非得按人类审美来编程？你有没有想过，为什么地球绕太阳转的轨道偏偏是个椭圆，而不是正方形或者三角形？开...
阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座
随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会...
台积电拟于2027年最高提价10%；苹果拟推出设备租赁计划以提振销量；2026年《财富》中国500强发布
（全球TMT 2026年07月22日讯）今日要点：台积电拟于2027年最高提价10%；三星电子规划未来5年在韩 […]
杭州萧山OA电竞文化周启幕，OA电竞综合体正式落户萧山
7月22日，由杭州杭闪电竞发展有限公司打造的ONCE AGAIN电子竞技俱乐部线下专属空间——OA电竞综合体正式落地杭州萧山，OA电竞文化周同步拉开帷幕。...