小红花·文摘

该研究提出了StreamETM方法，结合嵌入式主题模型与不平衡最优传输，以应对在线主题建模中快速增长的文本数据流挑战。实验结果表明，StreamETM在模拟和实际数据上均优于现有方法。

Combining Embedded Topics with Optimal Transport for Online Topic Modeling of Data Streams

BriefGPT - AI 论文速递 ·

利用图形和代理分析LinkedIn公司帖子

DEV Community ·

该论文探讨了非负矩阵分解（NMF）在主题模型学习中的应用，提出了多种改进的主题建模框架和算法，以提高学习效率和模型可解释性。研究涉及监督与无监督学习、政治意识形态偏见的影响以及多视图嵌入空间的使用，展示了在不同数据集上的优越性能。

多环境主题模型

BriefGPT - AI 论文速递 ·

本文介绍了多种主题模型推断算法的进展，包括可证明的快速算法、自动检测主题数的框架和关键词辅助模型。研究表明，BERTopic在主题提取方面表现优异，并提出了动态主题模型的评估方法，强调了神经网络模型在实际应用中的优势。

主题建模的可靠性

BriefGPT - AI 论文速递 ·

本文分析了播客摘要生成的研究进展，提出了自动生成播客音频摘要的方法，并探讨了摘要质量、重要片段选择及语言风格对听众情感的影响。研究还涉及主题模型和命名实体的应用，展示了新技术在播客领域的有效性和交互性。

PODTILE：通过自动生成章节简化播客剧集浏览

BriefGPT - AI 论文速递 ·

本文探讨了非负矩阵分解（NMF）在主题模型学习中的应用，强调其高效性和隐私保护。同时，研究了大型语言模型（LLMs）在主题提取中的潜力，并提出了多模态聚类算法和关键词辅助嵌入式主题模型（KeyETM），展示了这些方法在主题检测和描述生成中的优势。

利用思维链和 LLMs 的自动注释 NMF 主题模型

BriefGPT - AI 论文速递 ·

人工智能在多个领域的应用日益普遍，但隐私风险也逐渐显现。研究表明，大型语言模型易受到成员推理攻击，攻击者可通过少量样本推断用户数据是否被用于训练。为此，提出了一种新框架，利用集合方法提高攻击模型的准确性，并探讨差分隐私在主题模型中的应用，以增强隐私保护。

SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性

BriefGPT - AI 论文速递 ·

本文介绍了标签索引神经主题模型（LI-NTM），这是首个有效的上游半监督神经主题模型，表现优于现有模型。同时，研究提出了基于主题引导的变分自编码器（TGVAE）和嵌入式主题模型（ETM），在文本生成和主题发现方面取得了显著成果。

基于 Transformer 表示的概率主题建模

BriefGPT - AI 论文速递 ·

本研究通过收集推特上关于疫苗接种的数据，评估了不同主题模型的性能，旨在支持未来健康领域的论证挖掘研究。采用了多种策略来聚合带有主张的推文文本，包括使用特征级融合和双视图架构的模型。

COVID-19 推文中立场和前提识别的数据和模型：来自社交媒体健康挖掘 (SMM4H) 2022 共享任务的洞见

BriefGPT - AI 论文速递 ·

该文介绍了一种新方法，使用主题模型为每个话语生成主题标签，并将其作为教师添加辅助的主题分类任务，以无监督的方式融入额外的全局语义信息。实验证明，该方法在大多数任务中实现了与基准方法相当或更好的性能，包括自动语音识别和8个超级任务中的5个任务。主题标签包含关于话语的各种信息，如性别、演讲者和主题，凸显了该方法在捕捉多方面语义细微差别方面的有效性。

HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示

BriefGPT - AI 论文速递 ·

该研究设计了一种词义消歧系统，使用主题模型，能够在上下文单词数增加的情况下扩展。在5个英语全单词WSD数据集上的评估表明，该方法优于当前最先进的无监督知识为基础的WSD系统。

语言模型作为视觉词义消歧的知识库

BriefGPT - AI 论文速递 ·

BERTopic集成Hugging Face Hub的介绍

Hugging Face - Blog ·