对比式任务专用句子编码器的信息类型分类

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究介绍了CrisisTransformers,一种用于分析危机相关社交媒体文本的预训练语言模型和句子编码器。评估结果显示,CrisisTransformers在18个危机特定的公共数据集上表现优于强基线,句子编码器提高了17.43%的技术水平。该模型已公开发布,可作为分析危机相关社交媒体文本任务的强大基准。

🎯

关键要点

  • 社交媒体在危机传播中扮演重要角色,但分析其文本具有挑战性。
  • 本研究引入了CrisisTransformers,一个预训练语言模型和句子编码器的集合。
  • CrisisTransformers经过广泛的语料库训练,包含超过150亿词元的推文,涉及30多个危机事件。
  • 评估结果显示,CrisisTransformers在18个危机特定的公共数据集上表现优于强基线。
  • 最佳句子编码器提高了17.43%的技术水平。
  • 研究了模型初始化对收敛性的影响,评估了领域专用模型的重要性。
  • 所有模型已公开发布,旨在成为分析危机相关社交媒体文本的强大基准。
➡️

继续阅读