小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在本地GPU上预训练Llama模型

本文介绍了如何在本地GPU上预训练Llama模型,包括训练特定标记的分词器、准备训练数据和执行预训练。使用HuggingFaceFW/fineweb数据集,创建一个12层的Llama模型,并设置训练参数以实现模型训练。

在本地GPU上预训练Llama模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-22T04:27:38Z
为Llama模型训练分词器

Llama模型是Meta发布的一个大型语言模型,采用字节对编码(BPE)进行文本分词,帮助模型理解词义关系。文章介绍了如何使用Hugging Face、SentencePiece和tiktoken库训练BPE分词器,并提供了代码示例。

为Llama模型训练分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-05T17:48:42Z
为BERT模型训练分词器

本文介绍了如何根据BERT的设计训练WordPiece分词器。使用WikiText数据集,下载数据并配置分词器,包括特殊符号和NFKC标准化。训练后,分词器能够将文本转换为整数标记,并支持子词组件,最终保存为JSON文件以便后续使用。

为BERT模型训练分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-11-18T20:07:11Z
使用PyTorch从零开始构建变换器模型(10天迷你课程)

本文介绍了如何使用PyTorch从零开始构建变换器模型的10天迷你课程,涵盖数据收集、分词器训练、位置编码和注意力机制等关键组件,适合有一定编程和机器学习基础的开发者。每节课约30分钟,通过实践,学员将掌握构建和训练变换器模型的技能。

使用PyTorch从零开始构建变换器模型(10天迷你课程)

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-12T03:45:31Z
超越文本压缩:跨规模评估分词器

分词器设计对语言模型性能影响显著,但评估其质量仍具挑战性。研究表明,分词器在小模型上的评估无法可靠预测其在大模型上的表现。实验发现,分词器选择对英语任务影响较小,但在机器翻译中差异显著。为此,提出了与下游性能更相关的内在指标,并构建了评估框架以实现更可靠的分词器比较。

超越文本压缩:跨规模评估分词器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-05T00:00:00Z
语言模型中的分词器

本文探讨了现代语言模型中的分词算法,包括朴素分词、词干提取、字节对编码(BPE)、WordPiece和SentencePiece。分词是自然语言处理中的重要步骤,旨在将原始文本转换为可处理的标记。BPE通过合并频繁的相邻字符对构建词汇,WordPiece通过最大化训练数据的可能性优化分词,而SentencePiece适用于多语言场景,无需预分词。理解这些算法对有效处理文本数据至关重要。

语言模型中的分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-28T17:06:05Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

机器之心
机器之心 · 2025-05-17T11:17:52Z
FlashTokenizer:全球最快的CPU分词器

FlashTokenizer是一款为大型语言模型优化的超快速CPU分词器,速度比传统分词器快8到15倍,显著提升推理效率。它采用高性能C++开发,支持多核处理,兼容Windows、macOS和Ubuntu,易于安装。

FlashTokenizer:全球最快的CPU分词器

DEV Community
DEV Community · 2025-04-02T21:51:57Z
快速分词器:Rust 如何加速自然语言处理

在自然语言处理领域,'Fast' 分词器利用 Rust 语言显著提高了处理速度,能够在标准服务器上在20秒内处理1GB文本,速度比传统Python分词器快43倍。这项技术不仅加快了数据处理,还确保了内存安全,满足现代NLP任务的需求。

快速分词器:Rust 如何加速自然语言处理

DEV Community
DEV Community · 2025-03-22T20:30:00Z

本研究解决了专业领域分词器开发不足的问题,提出了针对法律、金融和政府文本的领域特定BPE分词器,具有更高的效率,使用的标记数量比现有的GPT-4o和Llama3减少了9-17%。此外,字符级BPE分词器在文本纠正任务中表现出色,保持了错误文本和正确文本之间的一致标记边界,显著提升了处理长篇法律和金融文件的性能和效率。

KL3M 分词器:针对法律、金融和预处理应用的领域特定及字符级分词器系列

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-21T00:00:00Z
rs-bpe 优于 tiktoken 和其他分词器

rs-bpe是一种新型字节对编码(BPE)分词器库,旨在解决现有分词器在文本处理中的性能瓶颈。它提供高效的分词计数和快速的文本处理,支持增量计数和子范围计数,显著提升速度和效率。

rs-bpe 优于 tiktoken 和其他分词器

DEV Community
DEV Community · 2025-03-19T10:27:30Z

微软Razor更新了“提取为组件”功能和C#分词器,简化组件创建,提升C#代码处理能力,支持更多字符串格式,增强代码可维护性。

技术速递|增强 Razor 生产力的新功能!

dotNET跨平台
dotNET跨平台 · 2025-02-27T00:01:39Z

本研究探讨了大语言模型中数据预处理与缩放法则的关系,发现预训练数据和分词器显著影响损失-损失缩放趋势,强调选择合适的预训练数据集对训练的重要性。

大语言模型的关键:数据决定损失-损失缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

LLMs模型通过分词(Tokenization)理解和生成文本。BPE(Byte Pair Encoding)分词器将单词拆分为更小的单元,有效控制词汇量,处理新词并捕捉词义。picoGPT项目中的encoder.py展示了BPE的核心原理,帮助理解GPT如何将语言转换为机器可处理的数字序列。

BPE 分词器 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-13T00:18:00Z

本研究提出了一种新模型,通过渐进训练高压缩块,实现视频分词器在不增加通道容量的情况下,时间压缩比超过4倍,显著提升重建质量和效率,对视频生成具有重要影响。

视频分词器的渐进式生长用于高压缩潜在空间

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究开发了两款德语解码模型LLäMmlein 120M和1B,填补了德语自然语言处理的空白。通过创新的数据预处理和定制分词器,模型在SuperGLEBer基准测试中表现优异,为未来的开发提供了参考。

LLäMmlein: Building Compact and Competitive German Language Models from Scratch

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-17T00:00:00Z

本研究提出了一种基于特征重建的分词器训练方法,利用预训练的图像理解模型显著提升了图像生成性能,特别是在ImageNet-1k上取得了4.10的FID值,推动了对图像分词器的进一步研究。

图像理解提升图像生成的有效分词器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究提出了一种高性价比的方法,解决双语大型语言模型在英语与其他语言间支持不足的问题。通过扩大词汇量和新嵌入初始化,显著提升了生成文本质量,促进了对低代表性语言的公平支持。

从以英语为中心到有效的双语:支持低代表性语言的自定义分词器的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

研究分析了大型语言模型中分词器在多语言环境下的重要性。通过Qtok工具评估13种分词器的表现,结果显示分词器在不同语言和类别上的表现差异明显,为优化分词策略提供了参考。

Qtok:评估大型语言模型中多语言分词器质量的综合框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出通过替换分词器提高大语言模型效率,实验显示在不影响性能的情况下显著加快长文本解码速度,对模型应用有重要影响。

ReTok:替换分词器以增强大语言模型的表示效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码