本研究提出了DomainSum分层基准,以解决抽象摘要中的领域转移问题。研究表明,不同领域转移遵循层级结构,并评估了预训练语言模型和大型语言模型在不同领域的泛化能力。
MovieSum数据集包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。该数据集提供了带有IMDb ID的元数据,并详细描述了收集和过滤剧本的步骤,以及与其他数据集的比较。实验表明,最近的模型在长篇抽象摘要方面存在困难,论文希望能激发进一步研究。
研究发现,预训练的抽象摘要系统性能可靠,但输出的摘要常与输入不符且存在事实错误。作者通过综合和人工标注数据训练模型,识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。实验结果显示,人工标注的细粒度数据提供更有效的训练信号,最佳事实性检测模型能识别非事实标记,从而提高抽象摘要模型的准确性。
本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略,并将其应用于神经机器翻译和抽象摘要。实验证明,加入编码器网络的预训练表示是最有效的,可以在减慢推理速度仅14%的情况下获得高达5.3 BLEU的增益,并且即使有数百万个句对可用时,仍然可以观察到改进。最后,在CNN/DailyMail的完整文本版本上,达到了最新的研究成果。
该文介绍了一种利用抽象摘要生成简洁查询的方法,可以在现有数据集的检索系统中提高检索准确率。通过微调和开箱即食的摘要模型,检索准确率提高了3倍。
该文介绍了一种利用AMR树库进行研究的抽象摘要框架,具有数据驱动、可训练性和不特定于特定领域的特点,并在实验中取得了有希望的结果。
完成下面两步后,将自动完成登录并继续当前操作。