医疗文本简化:通过不太可能的训练和重新排序的束搜索解码来优化可读性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种无监督神经文本简化的框架,使用未标记文本语料库进行训练,可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。同时,增加标记的对也可以进一步提高性能。

🎯

关键要点

  • 提出了一种无监督神经文本简化的框架
  • 框架依赖于未标记文本语料库进行训练
  • 模型由共享编码器和一对注意解码器组成
  • 通过基于鉴别和去噪的损失获取简化知识
  • 使用从en-Wikipedia转储的未标记文本进行训练
  • 在公共测试数据上进行定量和定性的人类评估
  • 模型在词汇和句法两个级别上进行文本简化
  • 模型的性能与现有的监督方法竞争
  • 增加标记的对可以进一步提高性能
➡️

继续阅读