小红花·文摘

本研究提出了一种自我纠正对抗训练框架LIMIT，旨在改善中文非自然文本的纠正效果。该方法有效模拟真实应用中的错误，减少传统训练中的偏差，并在多种错误纠正方面超越现有技术。

Learning from Mistakes: Self-Correcting Adversarial Training for Chinese Unnatural Text Correction

BriefGPT - AI 论文速递 ·

本文介绍了EvalWeb工具链，旨在从嘈杂网络数据中提取高质量中文文本，发布了1.42 TB的ChineseWebText及600 GB的高质量子集。研究探讨了多语料库的质量评估与提升方法，分析了大规模语言模型面临的数据质量挑战，并提出改善策略，以促进更可靠的人工智能系统开发。

大规模网络挖掘语料在大型语言模型预训练中的挑战综述

BriefGPT - AI 论文速递 ·

本文探讨了利用经过过滤的网络数据训练大型语言模型的有效性，强调数据筛选的重要性。研究创建了包含1030万个网站创作者自我描述的数据集，并分析了不同质量和语言过滤器的影响。通过自动数据加工和知识蒸馏技术，模型在网页分类任务中的准确度显著提高。此外，提出了从网页数据中提取高质量中文文本的方法，并发布了大规模中文数据集，以支持语言模型研究。

AutoPureData: 网络数据的自动过滤用于 LLM 微调

BriefGPT - AI 论文速递 ·

本研究使用多语言BERT作为编码器，将n-gram信息融入词表示学习中，提出了一种中文文本到可视化的数据集。实验结果表明该数据集具有挑战性，值得进一步研究。

利用 nvBench 数据集的数据可视化自然语言模型

BriefGPT - AI 论文速递 ·