BriefGPT - AI 论文速递 ·

MultiCoNER v2: 用于细粒度和嘈杂的命名实体识别的大型多语言数据集

💡 原文中文，约500字，阅读约需1分钟。

📝

内容提要

该文介绍了一个名为MULTICONER V2的数据集，用于细粒度命名实体识别，包括12种语言中的33个实体类别。该数据集从维基百科和维基数据等开放资源中编译而来，并且是公开可用的。基于XLM-RoBERTa基准进行的评估突显了该数据集所带来的独特挑战，包括细粒度分类困难和实体噪声对性能的影响。

🎯

关键要点

MULTICONER V2 数据集用于细粒度命名实体识别，涵盖 12 种语言中的 33 个实体类别。
该数据集旨在解决 NER 中的实际挑战，包括处理复杂实体和输入错误导致的噪声。
数据集来源于维基百科和维基数据等开放资源，并且是公开可用的。
基于 XLM-RoBERTa 基准的评估显示，细粒度分类困难，所有语言的宏 F1 分数仅为 0.63。
损坏策略显著影响性能，实体损坏导致的性能下降比非实体损坏高 9%。
实体噪声对性能的影响大于环境噪声。

🏷️

标签

MULTICONER V2 XLM-RoBERTa 多语言数据集细粒度命名实体识别维基百科

➡️

继续阅读

DXC与Anthropic合作，将Claude模型投入生产环境
(全球TMT2026年6月15日讯)DXC Technology宣布与AI安全公司及Claude创建者Anth […]
国安部点名“AI中转站”，政企机构如何守住AI安全边界？
2026年6月8日，国家安全部官方微信公众号发布安全提示[1]，指出一种名为”AI中转站̶Read More
《玩具总动员5》中国首映礼在上海迪士尼举办
(全球TMT2026年6月15日讯)由迪士尼影业出品、皮克斯动画工作室制作的经典动画续作《玩具总动员5》即将于 […]
如何监控即时通讯出海稳定性?
监控是出海 IM 项目里最容易”看起来做了、其实没用”的环节。每家都会装 Prometheus、Grafana、ELK,但跨多区域、多通道、多语言的真实业务...
派评 | 近期值得关注的 App
>下载少数派2.0客户端、关注少数派公众号，解锁全新阅读体验📰>实用、好用的正版软件，少数派为你呈现🚀查看全文
如何做好即时通讯出海合规?
合规这件事,出海 IM 项目里被低估最严重。很多团队前期把它当”上线前补一份隐私政策”的轻量任务,结果欧盟 DPA 过不了、印度数据本地化不达标、应用商店下...