华为云官方博客 ·

大语言模型训练数据常见的4种处理方法

💡 原文中文，约13600字，阅读约需33分钟。

📝

内容提要

本文介绍了大语言模型训练数据的来源和处理方法，包括网络数据、图书、论文、百科和社交媒体等。数据处理方法包括低质过滤、冗余去除、隐私消除和词元切分，可提高训练效果和泛化能力。

🎯

关键要点

大语言模型训练需要大量高质量数据，影响模型效果和泛化能力。
训练数据来源包括网络数据、图书、论文、百科和社交媒体等。
数据处理方法包括低质过滤、冗余去除、隐私消除和词元切分。
通用数据在大模型训练中占比高，主要包括网页、书籍和对话文本。
专业数据对提升模型在特定任务上的能力至关重要，包括多语言数据、科学文本和代码。
低质过滤方法分为基于分类器和基于启发式的方法。
冗余去除是为了提高模型多样性，避免训练过程不稳定。
隐私消除是必要的，以防止泄露个人信息。
词元切分是数据预处理的重要步骤，解决未登录词问题。
字节对编码（BPE）和WordPiece是常见的词元分析算法。

🏷️

继续阅读

CNCF云原生人工智能数据存储白皮书
现代企业在云原生基础设施中部署人工智能和机器学习工作负载时面临数据瓶颈。CNCF基础设施技术顾问组发布白皮书，探讨数据湖、向量数据库、缓存策略及标准化接口...
人工智能数据中心的数据层
人工智能的物理限制影响数据中心的运作，AI的能力依赖于物理基础设施、能源和位置，实际部署受到法规、安全和机器生成数据的限制。
大语言模型推理服务知识梳理
本文探讨了如何将开源语言模型转化为可用的API服务，涵盖模型推理、请求调度和显存管理等技术细节。强调了LLM推理过程，包括输入文本和生成下一个token的...
技术沙龙｜智源/TileRT/腾讯/华为/智元创新集结北京，聚焦 AI 编译多层级优化实践
第一部分介绍 Triton 面临的挑战，以及 TLE 如何通过三个层次的语言扩展，渐进式地暴露硬件细节，使算子在可移植性、可维护性与性能之间取得更好的平衡...
行业认可 | 绿盟科技AI服务成果入选“CCIA网络安全新技术新产品新服务（第二批）”
近日，绿盟科技自动化主机应急分析服务正式入选中国网络安全产业联盟（CCIA）网络安全新技术新产品新服务（第二批Read More
技嘉科技发布AI TOP ATOM四机串联集群架构
技嘉科技发布了AI TOP ATOM四机串联集群架构，突破了单机限制，支持更大规模的AI与科学运算。每台设备具备1 PFLOPS算力和128 GB记忆体，...

内容提要

关键要点

标签

继续阅读