PaDeLLM-NER:大型语言模型中的并行解码用于命名实体识别

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了解决SemEval 2023 Task 2的体系结构和系统,评估了传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM)。通过新的想法提高了模型性能,包括衰减辅助损失、三元标记混合和任务最优头部。最终模型在开发数据上达到了0.85/0.84的微观和宏观F1值,并在测试数据上达到了0.67/0.61。证明了预训练的LLM和额外特征/损失/模型工程技术的结合可以显著提高宏观F1分数。

🎯

关键要点

  • 本文描述了解决SemEval 2023 Task 2的体系结构和系统。
  • 评估了传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM)。
  • 探索了衰减辅助损失、三元标记混合和任务最优头部等新想法。
  • 最终模型在开发数据上达到了0.85/0.84的微观和宏观F1值。
  • 在测试数据上达到了0.67/0.61的F1值。
  • 证明了预训练的LLM与额外特征/损失/模型工程技术结合可以显著提高宏观F1分数。
➡️

继续阅读