危机转型:面向危机相关社交媒体文本的预训练语言模型和句子编码器

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究引入了 CrisisTransformers,用于分析危机相关的社交媒体文本。经过广泛的语料库训练和评估,结果表明 CrisisTransformers 在所有数据集的分类任务中都优于强基线,句子编码器在句子编码任务中将现有技术水平提高了 17.43%。所有模型已公开发布,成为分析危机相关社交媒体文本任务的强大基准。

🎯

关键要点

  • 社交媒体在危机传播中发挥重要作用,但分析其文本具有挑战性。

  • 本研究引入了 CrisisTransformers,一个预训练语言模型和句子编码器的集合。

  • CrisisTransformers 经过广泛的语料库训练,包含超过 150 亿词元的推文,涉及 30 多个危机事件。

  • 评估显示,CrisisTransformers 在 18 个危机特定的公共数据集上的分类任务中优于强基线。

  • 最佳句子编码器在句子编码任务中将现有技术水平提高了 17.43%。

  • 研究还探讨了模型初始化对收敛性的影响及领域专用模型的重要性。

  • 所有模型已公开发布,成为分析危机相关社交媒体文本的强大基准。

➡️

继续阅读