该研究提出了StreamETM方法,结合嵌入式主题模型与不平衡最优传输,以应对在线主题建模中快速增长的文本数据流挑战。实验结果表明,StreamETM在模拟和实际数据上均优于现有方法。
txtai是一个多功能的嵌入数据库,适用于语义搜索和语言模型工作流。本文分析了NeuML过去12个月在LinkedIn上的帖子,构建了嵌入数据库和主题模型,探索热门主题,并利用代理分析数据集以提升未来帖子的互动率。
该论文探讨了非负矩阵分解(NMF)在主题模型学习中的应用,提出了多种改进的主题建模框架和算法,以提高学习效率和模型可解释性。研究涉及监督与无监督学习、政治意识形态偏见的影响以及多视图嵌入空间的使用,展示了在不同数据集上的优越性能。
本文介绍了多种主题模型推断算法的进展,包括可证明的快速算法、自动检测主题数的框架和关键词辅助模型。研究表明,BERTopic在主题提取方面表现优异,并提出了动态主题模型的评估方法,强调了神经网络模型在实际应用中的优势。
本文分析了播客摘要生成的研究进展,提出了自动生成播客音频摘要的方法,并探讨了摘要质量、重要片段选择及语言风格对听众情感的影响。研究还涉及主题模型和命名实体的应用,展示了新技术在播客领域的有效性和交互性。
本文探讨了非负矩阵分解(NMF)在主题模型学习中的应用,强调其高效性和隐私保护。同时,研究了大型语言模型(LLMs)在主题提取中的潜力,并提出了多模态聚类算法和关键词辅助嵌入式主题模型(KeyETM),展示了这些方法在主题检测和描述生成中的优势。
人工智能在多个领域的应用日益普遍,但隐私风险也逐渐显现。研究表明,大型语言模型易受到成员推理攻击,攻击者可通过少量样本推断用户数据是否被用于训练。为此,提出了一种新框架,利用集合方法提高攻击模型的准确性,并探讨差分隐私在主题模型中的应用,以增强隐私保护。
本文介绍了标签索引神经主题模型(LI-NTM),这是首个有效的上游半监督神经主题模型,表现优于现有模型。同时,研究提出了基于主题引导的变分自编码器(TGVAE)和嵌入式主题模型(ETM),在文本生成和主题发现方面取得了显著成果。
本研究通过收集推特上关于疫苗接种的数据,评估了不同主题模型的性能,旨在支持未来健康领域的论证挖掘研究。采用了多种策略来聚合带有主张的推文文本,包括使用特征级融合和双视图架构的模型。
该文介绍了一种新方法,使用主题模型为每个话语生成主题标签,并将其作为教师添加辅助的主题分类任务,以无监督的方式融入额外的全局语义信息。实验证明,该方法在大多数任务中实现了与基准方法相当或更好的性能,包括自动语音识别和8个超级任务中的5个任务。主题标签包含关于话语的各种信息,如性别、演讲者和主题,凸显了该方法在捕捉多方面语义细微差别方面的有效性。
该研究设计了一种词义消歧系统,使用主题模型,能够在上下文单词数增加的情况下扩展。在5个英语全单词WSD数据集上的评估表明,该方法优于当前最先进的无监督知识为基础的WSD系统。
BERTopic Python库现在支持与Hugging Face Hub的集成,用户可以将训练好的主题模型推送和拉取到Hub中,从而更方便地在不同环境中部署和管理模型。此外,BERTopic现在还支持使用safetensors库进行序列化。用户可以使用BERTopic分析客户评论、研究论文或对新闻文章进行分类,从而从文本数据中提取有意义的信息。通过一个例子,展示了如何使用BERTopic监测聊天模型训练数据集中主题的变化,并比较不同数据集中的主题分布。BERTopic Hub集成为用户提供了更快的迭代和高效的模型更新,确保在不同环境中的一致性。
完成下面两步后,将自动完成登录并继续当前操作。