小红花·文摘

百度大脑 ·

百度大脑 ·

本研究提出了一种高效的数据验证策略，优化大语言模型训练中的种子数据选择，构建数据过滤管道，提高过滤效率和分类器质量，创建了包含1万亿英语标记和1200亿中文标记的高质量数据集。

BriefGPT - AI 论文速递 ·

本研究探讨高质量监督微调数据集对大型语言模型训练的重要性，尤其是“傻问题”数据集。分析显示，某些规则能提升模型性能，但在其他任务上可能导致性能下降，强调在构建数据集时需考虑任务的多样性。

BriefGPT - AI 论文速递 ·

本研究提出了BeautyBank化妆编码器，解决了现有化妆转移方法在细节特征处理上的不足。该编码器有效解耦裸脸与化妆脸特征，并在高维空间中编码化妆特征。实验表明其在多种化妆应用中具有良好适应性，并构建了包含324,000对图像的高质量化妆数据集。

BriefGPT - AI 论文速递 ·

本文提出了一种提高基于事件相机的CNN训练数据的策略，创建了高质量数据集HQF，解决了视频重建中的真实图像质量问题。研究表明，使用事件数据进行对象分类和图像重建显著提升性能，并提出了自监督学习框架和循环网络方法，以改善图像重建和目标识别效果。

BriefGPT - AI 论文速递 ·

北京人工智能研究院发布了中文语料库互联网数据集，包含1000个重要中文网站的内容，总共104GB。该数据集填补了中文领域高质量数据集的空白。

极道 ·

本文介绍了使用熵和EL2N评分来评估训练样本的有用性和难度，并展示了如何选择重要样本。结果显示，通过筛选高质量数据集并进行评分选择，语义错误率下降2%，领域分类错误率下降4%-7%。

BriefGPT - AI 论文速递 ·