BriefGPT - AI 论文速递 ·

一种针对越南社交媒体的机器词汇标准化的弱监督数据标注框架

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了自然语言处理（NLP）在越南语序列标记和社交媒体文本分类中的应用，提出了新的模型架构和半监督框架，利用预训练语言模型和数据集，取得了最先进的结果，展示了在数据稀缺场景下的有效性。同时，介绍了越南社交媒体文本的单语言预训练模型ViSoBERT，显著提升了情绪识别和仇恨言论检测的性能。

🎯

🔎

越南社交媒体文本常常包含非标准词汇和噪声，这对自然语言处理（NLP）工具的有效性构成挑战。本文提出的ViCGCN方法通过图卷积网络解决了数据不平衡和噪声问题，显示出在处理这些复杂数据时的优越性。

研究中采用的半监督框架利用GPT-2模型自动构建大规模数据，证明了在数据稀缺场景下的有效性。这种方法不仅提高了模型的训练效率，还能在缺乏标注数据的情况下，依然实现较好的性能，适用于资源有限的语言处理任务。

ViSoBERT作为首个专为越南社交媒体文本设计的单语言预训练模型，展示了在情绪识别和仇恨言论检测等任务中的显著提升。这一创新为越南语的NLP研究提供了新的方向，尤其是在处理社交媒体数据时的应用潜力。

❓

使用了多语言BERT嵌入和新的神经模型架构。

ViSoBERT在情绪识别、仇恨言论检测等任务中超越了之前的最先进模型。

通过利用GPT-2模型自动构建大规模数据，调整模型参数以提高标签质量。

词汇规范化有助于提高NLP工具的准确性，解决非标准词汇带来的障碍。

ViLexNorm语料库包含超过10,000对句子，经过人工注释，来自越南流行社交媒体的评论。

第一阶段使用模型标注器检测语义歧义，第二阶段使用最大匹配算法拆分NSWs为发音形式。

🏷️