小红花·文摘 - 小红花技术领袖俱乐部

自然语言处理（NLP）近年来因大型语言模型（LLMs）的应用而发生显著变化，但文本预处理仍然至关重要。文章介绍了三种使用NLTK进行有效文本预处理的方法：1）使用MWETokenizer保留多词表达的完整性；2）通过词性标注实现上下文感知的词形还原；3）利用统计方法提取关键短语。这些技术有助于提高NLP模型的准确性和鲁棒性。

三种NLTK技巧用于高级文本预处理与语言分析

KDnuggets ·

本研究针对中库尔德语在自然语言处理中的资源不足问题，提出了一种全面的词性标注集，以提升相关任务的表现。该标注集通过整合研究和专家贡献，支持大规模语料库的标注，显著提高了库尔德语处理任务的准确性。

A Comprehensive Part-of-Speech Tagging Standardization for Central Kurdish: A Research Guide for Kurdish Natural Language Processing Tasks

BriefGPT - AI 论文速递 ·

本研究比较了1900至1950年间中文文献中大型语言模型（LLMs）与传统自然语言处理工具在词语分割、词性标注和命名实体识别方面的表现。结果表明，LLMs在精度上优于传统方法，但计算成本较高，反映了精度与效率之间的权衡。

1900-1950年历史中文资料中的词语分割、词性标注和命名实体识别的比较分析

BriefGPT - AI 论文速递 ·

本研究探讨了多语言模型重标定对表现不佳语言的影响，提出AlignFreeze方法，通过冻结模型层的上半部分或下半部分，避免性能下降。研究表明，冻结下层能有效改善某些语言的词性标注效果。

AlignFreeze: Navigating the Impact of Layer Realignment in Multilingual Models

BriefGPT - AI 论文速递 ·

本文介绍了多种词性标注方法，包括基于后缀和字形信息的快速适应标注器、bi-LSTM模型以及联合词性标注与依存分析。这些方法在不同语言和领域中表现出色，特别是在处理未分割文本和濒危语言时，结合半监督和跨语言迁移技术取得了显著提升。

利用词性标注突出句子的骨架结构

BriefGPT - AI 论文速递 ·

研究探讨了新加坡英语词性标注的挑战，通过建立平行数据集和设计特定标注方法，提高标注准确度，揭示方言多样性和上下文依赖性对标注的影响。

新加坡英语标注中的挑战

BriefGPT - AI 论文速递 ·

本研究探讨了领域适应技术在历史文本处理中的应用，特别是在词性标注和文本规范化方面。通过深度学习模型和多任务学习，提升了模型性能。研究分析了不同语言的历史拼写规范化方法，强调了训练数据的重要性，并提出在规范化过程中需谨慎，以保留文本特性。

历史德语文本规范化：基于类型和标记的语言建模

BriefGPT - AI 论文速递 ·

该研究探讨了历史文本处理中的领域适应技术，重点关注词性标注和命名实体识别。通过比较不同模型和方法，评估了历史文本规范化的有效性，并提出了新的信息提取数据库和NER语料库，以提高OCR质量和数据结构识别的准确性。

文本规范化对中世纪文书分类的相关性研究

BriefGPT - AI 论文速递 ·

本文介绍了一种基于规则的乌兹别克语词干提取算法，利用有限状态机剥离词缀，并建立词缀词典。研究还提出了乌兹别克语词性标注工具，解决低资源语言样本不足的问题，展示了音节化的综合方法，准确率超过99%。该研究为乌兹别克语及相关语言的未来研究提供了重要见解。

UzMorphAnalyser: 用词尾进行乌兹别克语言的形态分析模型

BriefGPT - AI 论文速递 ·

读《通向AGI之路：大型语言模型（LLM）技术精要》笔记整理

读《通向AGI之路：大型语言模型（LLM）技术精要》笔记整理

Anjhon’s Blog ·

本文提出了一种生成模型，通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决跨语言迁移的问题。该方法在10种语言中相较于使用最先进的判别模型的直接转移方法，在词性标注和依赖分析方面分别获得了平均5.2％和8.3％的绝对改善。

爪哇语依存分析的跨语言迁移学习

BriefGPT - AI 论文速递 ·

一款大大简化Python自然语言处理的开源库

一款大大简化Python自然语言处理的开源库

迷途小书童 ·

本文研究了多任务学习在Fon语言的自然语言处理中的应用，重点关注了命名实体识别和词性标注任务，并展示了相对于其他预训练的多语种语言模型来说，具备竞争力或更好性能。

FonMTL: 面向 Fon 语的多任务学习

BriefGPT - AI 论文速递 ·