无本体的通用领域知识图到文本生成数据集
原文中文,约300字,阅读约需1分钟。发表于: 。本文解决了通用领域知识图到文本生成(G2T)研究中缺乏高质量数据集的问题。通过采用一种新颖的方法,使用大型语言模型(LLM)生成了一个包含5.85百万个图-文本对的维基百科数据集WikiOFGraph,确保了高一致性。实验结果表明,基于WikiOFGraph微调的预训练语言模型在各项评估指标上优于其他数据集,为高质量G2T数据的生成提供了有效且可扩展的解决方案。
该文章介绍了新数据集WikiGraphs,用于促进条件文本生成、图形生成和图形表示学习的研究。数据集包括维基百科文章和知识图,可评估文本生成模型。研究结果显示改进条件图形可提高生成和检索质量,但仍有改进空间。