该研究提出了StreamETM方法,结合嵌入式主题模型与不平衡最优传输,以应对在线主题建模中快速增长的文本数据流挑战。实验结果表明,StreamETM在模拟和实际数据上均优于现有方法。
txtai是一个多功能的嵌入数据库,适用于语义搜索和语言模型工作流。本文分析了NeuML过去12个月在LinkedIn上的帖子,构建了嵌入数据库和主题模型,探索热门主题,并利用代理分析数据集以提升未来帖子的互动率。
本研究提出了一种机器忘记算法,探讨了在预训练和微调框架中主题模型的可证明性忘记,并设计了有效算法以删除训练数据而不显著影响模型性能。
本文介绍了一种新颖的神经自回归主题模型ctx-DocNADE,该模型结合了主题模型和语言模型,通过嵌入词的静态信息,提升了小语料库和短文本中的词-主题映射效果,展现了良好的泛化能力和可解释性。
本文介绍了一种零样本跨语言主题模型,通过迁移学习处理多语言数据,解决了传统模型的单语言和词汇稀疏问题。评估显示,该模型在多语言中的主题预测准确且稳定,具有研究潜力。
该研究提出了一种新方法来丰富HuBERT的语义表示,通过应用主题模型为每个话语生成主题标签,并将主题标签用作教师来添加辅助的主题分类任务,以无监督的方式融入额外的全局语义信息。实验证明,该方法在大多数任务中实现了与基准方法相当或更好的性能。
最近的研究发现,大型语言模型易受隐私攻击,推断出训练数据的某些方面。本文提出了一种针对主题模型的攻击方法,并探讨了差分隐私的主题模型以减轻这些弱点。该方法在保护隐私方面有改进,对实际效用影响较小。
本研究通过收集推特上关于疫苗接种的数据,评估了不同主题模型的性能,旨在支持未来健康领域的论证挖掘研究。采用了多种策略来聚合带有主张的推文文本,包括使用特征级融合和双视图架构的模型。
该文介绍了一种新方法,使用主题模型为每个话语生成主题标签,并将其作为教师添加辅助的主题分类任务,以无监督的方式融入额外的全局语义信息。实验证明,该方法在大多数任务中实现了与基准方法相当或更好的性能,包括自动语音识别和8个超级任务中的5个任务。主题标签包含关于话语的各种信息,如性别、演讲者和主题,凸显了该方法在捕捉多方面语义细微差别方面的有效性。
该研究设计了一种词义消歧系统,使用主题模型,能够在上下文单词数增加的情况下扩展。在5个英语全单词WSD数据集上的评估表明,该方法优于当前最先进的无监督知识为基础的WSD系统。
BERTopic Python库现在支持与Hugging Face Hub的集成,用户可以将训练好的主题模型推送和拉取到Hub中,从而更方便地在不同环境中部署和管理模型。此外,BERTopic现在还支持使用safetensors库进行序列化。用户可以使用BERTopic分析客户评论、研究论文或对新闻文章进行分类,从而从文本数据中提取有意义的信息。通过一个例子,展示了如何使用BERTopic监测聊天模型训练数据集中主题的变化,并比较不同数据集中的主题分布。BERTopic Hub集成为用户提供了更快的迭代和高效的模型更新,确保在不同环境中的一致性。
完成下面两步后,将自动完成登录并继续当前操作。