本文探讨了无监督学习在句法树和句子生成中的应用,介绍了多种无监督解析方法及其性能提升策略。研究表明,数据增强、自我训练和集成方法能够有效提高解析准确性,且无标签数据也能取得良好效果。
该文介绍了一个简单的模型,可以根据给定的图片生成相关的句子,主要侧重于句子的语法。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。该方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
研究发现,使用BART-large模型在按照CommonGen训练数据中概念顺序进行微调时表现最优,即使使用专门针对该任务的训练数据进行微调,更大的基于GPT3的大型语言模型变体在此任务上也未必表现更好。人工标注者在手动编写涵盖这些概念的句子时会显著调整输入的概念顺序,并且无论生成时使用的LM如何,这种排序都能提供最好的句子生成结果,超过了基于概率的概念排序基线。
完成下面两步后,将自动完成登录并继续当前操作。