利用大语言模型和叙事结构文本嵌入映射新闻叙事

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

本文研究了利用CompRes数据集进行新闻叙述结构的自动检测,提出了新的故事要素和分析框架,并通过有监督模型训练实现了高达0.7的F1得分。研究还探讨了政治实体在事件中的内在议程,提出了描述新闻类型的非离散框架,并总结了900多篇相关研究的趋势与挑战。此外,利用大型语言模型分析文本结构与框架信息的提取,揭示了政治偏见的检测及其影响。

🎯

关键要点

  • 利用CompRes数据集进行新闻叙述结构自动检测,提出新的故事要素,F1得分高达0.7。

  • 通过组合式阅读器模型分析多篇文档,捕获政治实体的内在议程,形成有效表征。

  • 提出用于描述新闻类型的非离散框架,提供计算模型自动分析新闻语句。

  • 综述900多篇相关研究,总结趋势、挑战和未来研究方向。

  • 重新评估传播科学中的框架概念,结合重要实体的叙事框架,提出自动检测多标签测定的框架。

  • 提出系统的叙述性发现框架,通过自动聚合叙事片段提取大规模文本的叙述性。

  • 使用大型语言模型分析文本结构,验证潜在主题结构与文档结构的关系。

  • 探索故事提取和表示方法的能力,强调故事地图在捕捉框架动态中的潜力。

  • 研究人工撰写与机器生成文章的性质变化及政治偏见检测,发现显著差异。

  • 引入新的“配对完成”方法,基于大型语言模型有效识别问题框架,具备显著优势。

延伸问答

CompRes数据集在新闻叙述结构自动检测中的作用是什么?

CompRes数据集用于自动检测新闻媒体的叙述结构,通过新的故事要素和有监督模型训练,实现了高达0.7的F1得分。

文章中提到的非离散框架是如何描述新闻类型的?

非离散框架通过“事实性”和“形式性”两个维度,提供计算模型以自动分析新闻语句,帮助理解新闻类型的演变。

研究中如何捕获政治实体的内在议程?

研究利用组合式阅读器模型分析多篇文档,捕获政治实体对特定事件的内在议程,从而形成有效表征。

文章总结了哪些关于新闻叙述的趋势和挑战?

文章综述了900多篇相关研究,分析了近年来的趋势、挑战和未来的研究方向,特别是从事件中心提取新闻叙事的合成和组织方法。

大型语言模型在文本结构分析中的作用是什么?

大型语言模型能够生成结构完整且连贯的长文本,验证了潜在主题结构与文档结构的关系,显示出其在文本分析中的有效性。

如何通过新的“配对完成”方法检测问题框架?

新的“配对完成”方法基于大型语言模型的下一个标记日志概率,能够在大规模数据集中有效识别问题框架,且只需少量样本。

➡️

继续阅读