小红花·文摘

本研究提出了DomainSum分层基准，以解决抽象摘要中的领域转移问题。研究表明，不同领域转移遵循层级结构，并评估了预训练语言模型和大型语言模型在不同领域的泛化能力。

DomainSum：用于细粒度领域转移的抽象文本摘要分层基准

BriefGPT - AI 论文速递 ·

MovieSum数据集包括2200部电影剧本及其维基百科情节摘要，用于电影剧本的抽象摘要。该数据集提供了带有IMDb ID的元数据，并详细描述了收集和过滤剧本的步骤，以及与其他数据集的比较。实验表明，最近的模型在长篇抽象摘要方面存在困难，论文希望能激发进一步研究。

MovieSum：大型复杂文本摘要数据集，提供格式化剧本信息以及维基摘要 | ACL 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

研究发现，预训练的抽象摘要系统性能可靠，但输出的摘要常与输入不符且存在事实错误。作者通过综合和人工标注数据训练模型，识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。实验结果显示，人工标注的细粒度数据提供更有效的训练信号，最佳事实性检测模型能识别非事实标记，从而提高抽象摘要模型的准确性。

通过数据提炼和条件生成填空改进抽象摘要的事实错误修正

BriefGPT - AI 论文速递 ·

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅14％的情况下获得高达5.3 BLEU的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在CNN/DailyMail的完整文本版本上，达到了最新的研究成果。

基于模态相对预训练的文本到代码生成

BriefGPT - AI 论文速递 ·

该文介绍了一种利用抽象摘要生成简洁查询的方法，可以在现有数据集的检索系统中提高检索准确率。通过微调和开箱即食的摘要模型，检索准确率提高了3倍。

CLAIMSCAN-2023: 社交媒体中揭示真相的概述 —— 通过索引主张的检测和识别

BriefGPT - AI 论文速递 ·

该文介绍了一种利用AMR树库进行研究的抽象摘要框架，具有数据驱动、可训练性和不特定于特定领域的特点，并在实验中取得了有希望的结果。

不缺标记数据了：只需添加语义 —— 一种用于推断在线健康文本的数据高效方法

BriefGPT - AI 论文速递 ·