BERT 词汇扩展与知识库构建

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了如何训练针对文本文档中关键短语的任务特定语言模型,并提出了新的预训练目标和适用于BART的预训练设置。通过对预训练语言模型进行微调,可以用于命名实体识别、问答、关系抽取、编写摘要等任务。

🎯

关键要点

  • 研究如何训练针对文本文档中关键短语的任务特定语言模型。
  • 使用不同的掩码策略在区分性和生成性环境下对预训练变压器语言模型进行实验。
  • 提出新的预训练目标 - 关键短语边界填充替换(KBIR),提高 8.16 个 F1 分数。
  • 提出适用于 BART 的新的预训练设置 - KeyBART,能在 CatSeq 格式中重现相关的关键短语,提升 4.33 个 F1M 分数。
  • 对预训练语言模型进行微调,应用于命名实体识别、问答、关系抽取、编写摘要等任务,性能与现有最佳方法可比。
  • 学习关键短语的丰富表达对许多基础的自然语言处理任务是有益的。
➡️

继续阅读