医疗文本简化:通过不太可能的训练和重新排序的束搜索解码来优化可读性
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种无监督神经文本简化的框架,使用未标记文本语料库进行训练,可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。同时,增加标记的对也可以进一步提高性能。
🎯
关键要点
- 提出了一种无监督神经文本简化的框架
- 框架依赖于未标记文本语料库进行训练
- 模型由共享编码器和一对注意解码器组成
- 通过基于鉴别和去噪的损失获取简化知识
- 使用从en-Wikipedia转储的未标记文本进行训练
- 在公共测试数据上进行定量和定性的人类评估
- 模型在词汇和句法两个级别上进行文本简化
- 模型的性能与现有的监督方法竞争
- 增加标记的对可以进一步提高性能
➡️