本文探讨了自然语言处理(NLP)在越南语序列标记和社交媒体文本分类中的应用,提出了新的模型架构和半监督框架,利用预训练语言模型和数据集,取得了最先进的结果,展示了在数据稀缺场景下的有效性。同时,介绍了越南社交媒体文本的单语言预训练模型ViSoBERT,显著提升了情绪识别和仇恨言论检测的性能。
本研究提出了一种贝叶斯方法用于聚合序列标记,以减少注释错误。通过众包数据评估,该模型在命名实体识别等任务中表现优于现有技术,并降低了成本。研究还探讨了分层抽样和控制变量等技术,以提高标注准确性。提出的算法和模型显著提升了序列标注任务的效率和质量。
本文提出了一种基于计算机视觉中的物体检测算法启发的新型单遍 OpenIE 方法,使用基于二分图匹配的无序损失和基于 Transformer 的编码器体系结构进行序列标记。该方法在标准基准测试中表现出优异的性能,并在两种语言的零-shot设置中展示了性能提高15%,使两种语言的F1值均达到75%以上。
本文介绍了一个无幻觉的框架,以序列标记为例,适用于蒸馏并从大模型获得的知识中获益,在多个序列标记数据集上展现了卓越表现,证明了该框架在少量数据学习场景下进行大模型蒸馏的有用性。
完成下面两步后,将自动完成登录并继续当前操作。