文本分类研究的新方向:最大化有限数据下情感分类的性能
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
PerSenT数据集是一个困难的实体情感分析数据集,提供段落级别的情感注释。使用BERT微调文档级表示不足以解决问题,对整个文档进行段落级别的决策和聚合也无效。数据集包含5.3k个文档和38k个段落,涵盖3.2k个独特实体。
🎯
关键要点
- PerSenT 数据集用于新闻文章中主要实体的情感分析。
- 提供段落级别的情感注释,以实现更精细的监督。
- 基准测试表明这是一个困难的分类任务。
- 使用 BERT 微调文档级表示不足以解决问题。
- 对整个文档进行段落级别的决策和聚合无效。
- 数据集包含 5.3k 个文档和 38k 个段落,涵盖 3.2k 个独特实体。
🏷️
标签
➡️