本研究解决了网络犯罪投诉的多语言和代码混合特性所带来的分类挑战,提出了一种基于Hinglish变压器的自动化投诉分类框架。通过使用真实世界的数据集及数据增强方法,研究显示该框架在准确性和F1分数方面取得了显著提高,为网络犯罪投诉管理提供了可扩展且符合隐私标准的解决方案。
本文研究了混合编码(Hinglish和Bengalish)到英语的机器翻译问题,通过合成平行语料库和提出的鲁棒扰动联合训练模型(RCMT),展示了RCMT在Bengalish到英语翻译上的零样例适应能力,并通过定性和定量分析证明了RCMT在混合编码和鲁棒翻译方法上的优越性。
该研究使用生成式人工智能生成合成仇恨言论序列,并微调预训练语言模型以提高对仇恨言论的泛化能力。实验证明该方法改进了召回性能,但GPT-3.5模型的泛化效果更好,召回率中等且精确度低。使用类似的文本生成技术改善GPT-3.5及后续模型的敏感性尚不清楚。
本文介绍了SemEval-2020任务9关于混合代码推文情感分析(SentiMix 2020)的结果,包括Hinglish和Spanglish语料库的标记和描述。最佳表现分别为75.0%和80.6%的F1得分。观察到BERT-like模型和集合方法是最常见和成功的方法。
该研究提出了多种模型来解决单语英文到Hinglish的翻译问题,其中使用mT5和mBART Transformer-based编码器-解码器模型表现良好。同时,提出了一种生成混合编码文本的无依存方法,并采用课程学习方法来提高语言模型性能。在英语-Hinglish官方共享任务中,该模型效果最佳。
完成下面两步后,将自动完成登录并继续当前操作。