本研究针对乌尔都语教育领域命名实体识别(NER)不足的问题,提出了一种新的数据集EDU-NER-2025,专注于教育相关的重要实体。通过详细描述标注过程、规范及挑战,研究分析了乌尔都语正式文本中特有的语言学挑战,为未来的NER研究提供了重要资源和方法论基础。
本研究提出一种新方法,通过Llama-3生成的解释性内容,显著提升RoBERTa在多标签情感检测中的性能,尤其在恐惧、快乐和悲伤情感上提高了F1分数,标志着情感检测的进展。
本研究针对CoMeDi共享任务的分歧排名子任务,提出了一种新方法,利用paraphrase-xlm-r-multilingual-v1模型生成的句子嵌入和深度神经回归模型。优化后的系统在Spearman相关性表现上达到了竞争性水平,强调了在多语言环境中处理判断差异的重要性。
这篇文章介绍了如何使用Hugging Face创建自然语言处理工具的步骤。首先,需要在外部SSD上创建Python和pip的版本,并安装相应的文件和虚拟环境。然后,在Visual Studio中创建一个Python文件,并添加代码来加载情感分析模型。最后,运行文件并安装必要的包。完成后,可以使用Hugging Face进行自然语言处理。
该研究介绍了UniBuc-NLP团队在SemEval 2024任务8中使用基于transformer和混合深度学习架构的模型。在子任务B中取得了强势的第二名,但在子任务A和C中出现了过拟合的问题。
本文讨论了在线性别歧视检测中的方法,包括使用GloVe嵌入、基于transformer的深度学习模型和数据清理增强方法。预训练transformer模型在性能上有显着改进。
该研究比较了三种大型语言模型在化学信息学任务中的微调效果,并提供了选择适合特定应用的模型的方法论。
我们使用适配器框架基于参数高效的微调开发了一种简单、统一和计算轻量级的方法,应用于古代和历史语言的词嵌入评估,形态标注,POS 标记,词义化和字符和词级别的填充等任务,并在所有任务和 16 种语言上均匀应用了相同的适配器方法。我们的研究结果显示了在现代语言上预训练的语言模型通过适配器训练可以适应历史和古代语言的可行性。
使用BPE分词工具在土耳其语语料库上预训练RoBERTa模型,优于BERTurk模型在词性标注任务中,但在IMST数据集上表现不佳。在土库曼语的XTREME数据集上的命名实体识别任务中获得竞争性分数。公开了预训练模型和分词工具。
本文介绍了一种嵌入医疗领域知识和启用Few-shot Learning的方法,通过检索医学背景知识来引导ChatGPT的推理和寻答的逻辑。该方法在CNMLE-2022上取得了高分70,超过了人类平均分数61,证明了知识增强ChatGPT作为医疗助手的潜力。
研究者在COVID-19相关主题中进行虚假新闻检测,尝试了支持向量机、随机森林、BERT和RoBERTa等模型。发现预训练转换器和智能设计的随机初始化转换器都能达到较高准确度。
完成下面两步后,将自动完成登录并继续当前操作。