小红花·文摘

本文介绍了多个多模态数据集及其在教育和音视频理解中的应用，包括Multimodal Lecture Presentations、3MASSIV和AVMIT。研究提出了新的任务和方法，强调了数据集在自我监督学习和深度伪造检测中的重要性。

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

BriefGPT - AI 论文速递 ·

棱镜通讯 No.107 Duncan J Watts

太隐 ·

该研究调查了宣传语言及其风格特征，提出了PPN数据集，包括多源、多语言、多模态的新闻文章。通过人工注释实验，结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术，用于识别注释者使用的线索，并将它们与机器分类进行比较。

揭露宣传：通过比较人类标注和机器分类的文体线索进行分析

BriefGPT - AI 论文速递 ·

最新大型语言模型的高质量文本生成能力引起了对其滥用的关注。机器生成文本的检测对应对此类威胁至关重要。通过全面基准测试，发现所有经过测试的作者身份混淆方法都可以导致检测逃避。

ALISON: 高效快速的文体风格特征作者混淆

BriefGPT - AI 论文速递 ·

本文研究了基于文体分析技术的三项主要任务：单作者和多作者文档的分类、单一变换检测以及多作者文档中的作者变换检测。通过整合多种自然语言处理算法和权重优化技术的基于优势的融合框架，本文提出了一种解决方案，并通过对清洗和原始数据集的大量实验探索了特殊字符在这些任务的性能上的潜力。实验结果表明，在基准数据集上，对于所有三个任务，本文的解决方案相比现有解决方案取得了显著的改进。