小红花·文摘

本文介绍了CCI3.0-HQ，一个500GB的高质量中文数据集，旨在提升现有数据集的质量。该数据集通过新颖的两阶段混合过滤流程，在多个基准测试中表现优异，促进高质量语言模型的应用。

CCI3.0-HQ: A Large-Scale High-Quality Chinese Dataset Designed for Pre-Training Large Language Models

BriefGPT - AI 论文速递 ·

本文提出了一种统一的一步解决方案One-ASQP，用于检测方面类别并识别方面-意见-情感三元组，旨在扩展ASQP能力。研究构建了两个大型中文数据集，评估了GPT模型在ASQP上的性能，并提出了自适应数据增强框架以解决数据不平衡问题。通过模型推理和情感四元组生成，显著提高了复杂推理任务的能力，并探讨了模板顺序对任务表现的影响。

使用伪标签评分器进行方面情感四元预测的自训练

BriefGPT - AI 论文速递 ·

本文提出了一种基于对偶句子级别的监督对比学习（PairSCL）方法，结合交叉注意力机制和对比学习目标，在多个自然语言推理（NLI）任务中取得了优异表现。同时，介绍了中国首个大规模NLI数据集，以推动中文自然语言理解（NLU）的研究进展。

应用基于制图的新课程学习方法于 RoNLI：首个罗马尼亚自然语言推理语料库

BriefGPT - AI 论文速递 ·

本文介绍了一种名为MixEdit的数据增强方法，可提高GEC模型性能。在英文和中文GEC数据集上的实验证实了MixEdit的有效性。

MixEdit: 重访数据增强与语法错误修正

BriefGPT - AI 论文速递 ·