危机转型:面向危机相关社交媒体文本的预训练语言模型和句子编码器
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究引入了 CrisisTransformers,用于分析危机相关的社交媒体文本。经过广泛的语料库训练和评估,结果表明 CrisisTransformers 在所有数据集的分类任务中都优于强基线,句子编码器在句子编码任务中将现有技术水平提高了 17.43%。所有模型已公开发布,成为分析危机相关社交媒体文本任务的强大基准。
🎯
关键要点
-
社交媒体在危机传播中发挥重要作用,但分析其文本具有挑战性。
-
本研究引入了 CrisisTransformers,一个预训练语言模型和句子编码器的集合。
-
CrisisTransformers 经过广泛的语料库训练,包含超过 150 亿词元的推文,涉及 30 多个危机事件。
-
评估显示,CrisisTransformers 在 18 个危机特定的公共数据集上的分类任务中优于强基线。
-
最佳句子编码器在句子编码任务中将现有技术水平提高了 17.43%。
-
研究还探讨了模型初始化对收敛性的影响及领域专用模型的重要性。
-
所有模型已公开发布,成为分析危机相关社交媒体文本的强大基准。
➡️