危机转型:面向危机相关社交媒体文本的预训练语言模型和句子编码器
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究引入了 CrisisTransformers,用于分析危机相关的社交媒体文本。经过广泛的语料库训练和评估,结果表明 CrisisTransformers 在所有数据集的分类任务中都优于强基线,句子编码器在句子编码任务中将现有技术水平提高了 17.43%。所有模型已公开发布,成为分析危机相关社交媒体文本任务的强大基准。
🎯
关键要点
- 社交媒体在危机传播中发挥重要作用,但分析其文本具有挑战性。
- 本研究引入了 CrisisTransformers,一个预训练语言模型和句子编码器的集合。
- CrisisTransformers 经过广泛的语料库训练,包含超过 150 亿词元的推文,涉及 30 多个危机事件。
- 评估显示,CrisisTransformers 在 18 个危机特定的公共数据集上的分类任务中优于强基线。
- 最佳句子编码器在句子编码任务中将现有技术水平提高了 17.43%。
- 研究还探讨了模型初始化对收敛性的影响及领域专用模型的重要性。
- 所有模型已公开发布,成为分析危机相关社交媒体文本的强大基准。
➡️