文章中次要文本块的内容重要性分布及其在文章组织评估中的应用
原文中文,约200字,阅读约需1分钟。发表于: 。我们探讨了如何捕捉文章中的子文本块的重要性以及如何将其用于文本挖掘任务。我们提出了内容重要性分布(CSD)的概念,利用 Hugging Face 的 SentenceTransformer 生成句子的上下文嵌入,使用 MoverScore 测量子文本块与整个文本的相似度,进而利用 CSD-1 提取语言特征训练 SVC 分类器来评估文章的组织质量。通过实验,我们展示了这种方法在评估学生论文方面具有高准确性。
本文介绍了一种新方法,使用点过程和深层语境表示生成自包含亮点,以减轻读者处理大量文本的负担。该方法在概括数据集上进行了实验,证明亮点是未来概括研究的有前途的方向。