小红花·文摘

如何使用R进行文本挖掘

KDnuggets ·

本研究提出了一种新型文本挖掘知识图谱构建框架，解决了时效性和智能获取的不足。通过汽车电气系统案例验证，该方法在类别识别、关系构建和子类分类上优于现有技术，并探讨了其在智能电网和工业分析中的应用及与大型语言模型结合的未来方向。

基于大语言模型的定制化信息与领域中心知识图谱构建

BriefGPT - AI 论文速递 ·

本文介绍了多种生物医学领域的预训练语言模型，如ClinicalMamba、BioBERT和Jamba等。这些模型在生物医学文本挖掘、信息提取和问答任务中表现优异，展现了在特定领域知识库构建和推理方面的潜力。

BioMamba: 利用 Mamba 进行预训练的生物医学语言表示模型

BriefGPT - AI 论文速递 ·

本文探讨了先进语言处理和机器学习技术在专利及技术知识管理中的应用，强调大型语言模型和生成方法的潜力。这些方法有望提升专利检索和分类的效率，并在专利图像检索和医学文本挖掘中展示了有效性。

提高诠释性的早期潜在突破技术筛选：专利特定的分层注意力网络模型

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在图像分类、主题提取和深度学习中的应用潜力。研究提出了一种结合专家反馈的交互式框架，以平衡自动化与手动编码。实验验证了LLMs在生成标签、关键词提取和文本挖掘中的有效性，显示出其在提高准确性和效率方面的优势。

概念诱导：使用 LLooM 对非结构化文本进行高级概念分析

BriefGPT - AI 论文速递 ·

本文介绍了基于文本挖掘和LSTM的词类别分类和词汇模式预测方法，提出了AI-Score方法来预测下一年度考试中单词出现的概率，准确度达到100%。得分超过60分的段落中，仅出现1.7%的误差。

高稳健性 Wordle 游戏结果预测模型

BriefGPT - AI 论文速递 ·

本文研究了文本挖掘中的讽刺检测，介绍了iSarcasm数据集，并指出现有方法的局限性，提出未来需要发展更优秀的检测方法。

该文章介绍了一份改编自Kaggle上的Taptap Reviews手游评论数据集，可用于简体中文的文本挖掘练习。数据集来源于Taptap行动游戏网的玩家评价，包含4888条训练集数据，无缺失值。属性主要包括评论和评价类型，分为满意和不满意两类。该数据集为游戏产业提供了宝贵的玩家评价数据，帮助优化游戏体验，提升玩家满意度。游戏开发者能够更了解玩家心声，为玩家提供更符合需求的游戏，增强产品竞争力，赢得市场份额。

中文遊戲評價資料集 / Dataset: Chinese Mobile Games APP Reviews

布丁布丁吃什麼？ ·

如何使用R进行文本挖掘

基于大语言模型的定制化信息与领域中心知识图谱构建

BioMamba: 利用 Mamba 进行预训练的生物医学语言表示模型

提高诠释性的早期潜在突破技术筛选：专利特定的分层注意力网络模型

概念诱导：使用 LLooM 对非结构化文本进行高级概念分析

高稳健性 Wordle 游戏结果预测模型

灾害背景下的讽刺检测

中文遊戲評價資料集 / Dataset: Chinese Mobile Games APP Reviews