小红花·文摘

本文探讨了自然语言处理（NLP）在越南语序列标记和社交媒体文本分类中的应用，提出了新的模型架构和半监督框架，利用预训练语言模型和数据集，取得了最先进的结果，展示了在数据稀缺场景下的有效性。同时，介绍了越南社交媒体文本的单语言预训练模型ViSoBERT，显著提升了情绪识别和仇恨言论检测的性能。

一种针对越南社交媒体的机器词汇标准化的弱监督数据标注框架

BriefGPT - AI 论文速递 ·

本研究提出了一种贝叶斯方法用于聚合序列标记，以减少注释错误。通过众包数据评估，该模型在命名实体识别等任务中表现优于现有技术，并降低了成本。研究还探讨了分层抽样和控制变量等技术，以提高标注准确性。提出的算法和模型显著提升了序列标注任务的效率和质量。

估计序列标注的随机一致性

BriefGPT - AI 论文速递 ·

本文提出了一种基于计算机视觉中的物体检测算法启发的新型单遍 OpenIE 方法，使用基于二分图匹配的无序损失和基于 Transformer 的编码器体系结构进行序列标记。该方法在标准基准测试中表现出优异的性能，并在两种语言的零-shot设置中展示了性能提高15％，使两种语言的F1值均达到75％以上。

基于预训练语言模型的高效开放信息抽取数据学习

BriefGPT - AI 论文速递 ·

本文介绍了一个无幻觉的框架，以序列标记为例，适用于蒸馏并从大模型获得的知识中获益，在多个序列标记数据集上展现了卓越表现，证明了该框架在少量数据学习场景下进行大模型蒸馏的有用性。

Epicure: 将序列模型的预测提炼成模式

BriefGPT - AI 论文速递 ·