ParaFusion:添加高质量词汇和句法多样性的基于大规模 LLM 驱动的英语改写数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种基于预训练语言模型的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,并保持句子的意义。实验结果表明,该方法在英语、西班牙语和葡萄牙语上优于其他方法。
🎯
关键要点
- 基于预训练语言模型的词汇简化方法取得显著进展。
- 现有方法需要针对不同语言进行单独的预训练模型,且忽略句子意义的保留。
- 本文提出了一种新颖的多语言词汇简化方法,通过生成释义提供词语选择的多样性。
- 释义任务被视为多语言神经机器翻译中的零-shot 翻译任务。
- 采用集中于复杂词的词汇变体的新颖解码策略生成替代词。
- 实验结果表明,该方法在英语、西班牙语和葡萄牙语上优于基于 BERT 的方法和零-shot GPT3 方法。
➡️