本文介绍了CCI3.0-HQ,一个500GB的高质量中文数据集,旨在提升现有数据集的质量。该数据集通过新颖的两阶段混合过滤流程,在多个基准测试中表现优异,促进高质量语言模型的应用。
本文提出了一种统一的一步解决方案One-ASQP,用于检测方面类别并识别方面-意见-情感三元组,旨在扩展ASQP能力。研究构建了两个大型中文数据集,评估了GPT模型在ASQP上的性能,并提出了自适应数据增强框架以解决数据不平衡问题。通过模型推理和情感四元组生成,显著提高了复杂推理任务的能力,并探讨了模板顺序对任务表现的影响。
本文提出了一种基于对偶句子级别的监督对比学习(PairSCL)方法,结合交叉注意力机制和对比学习目标,在多个自然语言推理(NLI)任务中取得了优异表现。同时,介绍了中国首个大规模NLI数据集,以推动中文自然语言理解(NLU)的研究进展。
本文介绍了一种名为MixEdit的数据增强方法,可提高GEC模型性能。在英文和中文GEC数据集上的实验证实了MixEdit的有效性。
完成下面两步后,将自动完成登录并继续当前操作。