BriefGPT - AI 论文速递 ·

ParaFusion：添加高质量词汇和句法多样性的基于大规模 LLM 驱动的英语改写数据集

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了ParaAMR和ParaBank等同义句数据集的创建及其在自然语言处理中的应用潜力。通过神经机器翻译生成多样化句子，实验表明这些方法在保持语义和语法正确性方面表现优异，尤其在多语言环境中。此外，新提出的多语言词汇简化方法和Para-Ref评估方法显著提高了翻译质量和评估相关性。

🎯

❓

ParaAMR是通过抽象意义表示创建的大规模同义句数据集，主要用于自然语言处理应用。

ParaBank是一个大规模的英语释义数据集，主要用于句子改写任务，而ParaAMR则侧重于通过抽象意义表示生成同义句。

这种方法在保持句子意义的同时，提供了词语选择的多样性，显著提高了翻译质量。

Para-Ref通过利用大型语言模型生成多个高质量参考文本，使人工评估与自动评估指标之间的相关度提高了7.82%。

PARANMT-50M是一个大规模同义句数据集，提供丰富的语义知识，能够改善下游自然语言理解任务。

通过使用beam search生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似的句子。

🏷️