小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在本地GPU上预训练Llama模型

本文介绍了如何在本地GPU上预训练Llama模型,包括训练特定标记的分词器、准备训练数据和执行预训练。使用HuggingFaceFW/fineweb数据集,创建一个12层的Llama模型,并设置训练参数以实现模型训练。

在本地GPU上预训练Llama模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-22T04:27:38Z
为Llama模型训练分词器

Llama模型是Meta发布的一个大型语言模型,采用字节对编码(BPE)进行文本分词,帮助模型理解词义关系。文章介绍了如何使用Hugging Face、SentencePiece和tiktoken库训练BPE分词器,并提供了代码示例。

为Llama模型训练分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-05T17:48:42Z
为BERT模型训练分词器

本文介绍了如何根据BERT的设计训练WordPiece分词器。使用WikiText数据集,下载数据并配置分词器,包括特殊符号和NFKC标准化。训练后,分词器能够将文本转换为整数标记,并支持子词组件,最终保存为JSON文件以便后续使用。

为BERT模型训练分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-11-18T20:07:11Z
使用PyTorch从零开始构建变换器模型(10天迷你课程)

本文介绍了如何使用PyTorch从零开始构建变换器模型的10天迷你课程,涵盖数据收集、分词器训练、位置编码和注意力机制等关键组件,适合有一定编程和机器学习基础的开发者。每节课约30分钟,通过实践,学员将掌握构建和训练变换器模型的技能。

使用PyTorch从零开始构建变换器模型(10天迷你课程)

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-12T03:45:31Z
超越文本压缩:跨规模评估分词器

分词器设计对语言模型性能影响显著,但评估其质量仍具挑战性。研究表明,分词器在小模型上的评估无法可靠预测其在大模型上的表现。实验发现,分词器选择对英语任务影响较小,但在机器翻译中差异显著。为此,提出了与下游性能更相关的内在指标,并构建了评估框架以实现更可靠的分词器比较。

超越文本压缩:跨规模评估分词器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-05T00:00:00Z
语言模型中的分词器

本文探讨了现代语言模型中的分词算法,包括朴素分词、词干提取、字节对编码(BPE)、WordPiece和SentencePiece。分词是自然语言处理中的重要步骤,旨在将原始文本转换为可处理的标记。BPE通过合并频繁的相邻字符对构建词汇,WordPiece通过最大化训练数据的可能性优化分词,而SentencePiece适用于多语言场景,无需预分词。理解这些算法对有效处理文本数据至关重要。

语言模型中的分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-28T17:06:05Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理

机器之心
机器之心 · 2025-05-17T11:17:52Z
FlashTokenizer:全球最快的CPU分词器

FlashTokenizer是一款为大型语言模型优化的超快速CPU分词器,速度比传统分词器快8到15倍,显著提升推理效率。它采用高性能C++开发,支持多核处理,兼容Windows、macOS和Ubuntu,易于安装。

FlashTokenizer:全球最快的CPU分词器

DEV Community
DEV Community · 2025-04-02T21:51:57Z
快速分词器:Rust 如何加速自然语言处理

在自然语言处理领域,'Fast' 分词器利用 Rust 语言显著提高了处理速度,能够在标准服务器上在20秒内处理1GB文本,速度比传统Python分词器快43倍。这项技术不仅加快了数据处理,还确保了内存安全,满足现代NLP任务的需求。

快速分词器:Rust 如何加速自然语言处理

DEV Community
DEV Community · 2025-03-22T20:30:00Z

本研究解决了专业领域分词器开发不足的问题,提出了针对法律、金融和政府文本的领域特定BPE分词器,具有更高的效率,使用的标记数量比现有的GPT-4o和Llama3减少了9-17%。此外,字符级BPE分词器在文本纠正任务中表现出色,保持了错误文本和正确文本之间的一致标记边界,显著提升了处理长篇法律和金融文件的性能和效率。

KL3M 分词器:针对法律、金融和预处理应用的领域特定及字符级分词器系列

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-21T00:00:00Z
rs-bpe 优于 tiktoken 和其他分词器

rs-bpe是一种新型字节对编码(BPE)分词器库,旨在解决现有分词器在文本处理中的性能瓶颈。它提供高效的分词计数和快速的文本处理,支持增量计数和子范围计数,显著提升速度和效率。

rs-bpe 优于 tiktoken 和其他分词器

DEV Community
DEV Community · 2025-03-19T10:27:30Z

微软Razor更新了“提取为组件”功能和C#分词器,简化组件创建,提升C#代码处理能力,支持更多字符串格式,增强代码可维护性。

技术速递|增强 Razor 生产力的新功能!

dotNET跨平台
dotNET跨平台 · 2025-02-27T00:01:39Z

本研究探讨了大语言模型中数据预处理与缩放法则的关系,发现预训练数据和分词器显著影响损失-损失缩放趋势,强调选择合适的预训练数据集对训练的重要性。

大语言模型的关键:数据决定损失-损失缩放法则

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

LLMs模型通过分词(Tokenization)理解和生成文本。BPE(Byte Pair Encoding)分词器将单词拆分为更小的单元,有效控制词汇量,处理新词并捕捉词义。picoGPT项目中的encoder.py展示了BPE的核心原理,帮助理解GPT如何将语言转换为机器可处理的数字序列。

BPE 分词器 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-13T00:18:00Z

本研究提出了一种新模型,通过渐进训练高压缩块,实现视频分词器在不增加通道容量的情况下,时间压缩比超过4倍,显著提升重建质量和效率,对视频生成具有重要影响。

视频分词器的渐进式生长用于高压缩潜在空间

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究开发了两款德语解码模型LLäMmlein 120M和1B,填补了德语自然语言处理的空白。通过创新的数据预处理和定制分词器,模型在SuperGLEBer基准测试中表现优异,为未来的开发提供了参考。

LLäMmlein: Building Compact and Competitive German Language Models from Scratch

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-17T00:00:00Z

本研究提出了一种基于特征重建的分词器训练方法,利用预训练的图像理解模型显著提升了图像生成性能,特别是在ImageNet-1k上取得了4.10的FID值,推动了对图像分词器的进一步研究。

图像理解提升图像生成的有效分词器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究提出了一种高性价比的方法,解决双语大型语言模型在英语与其他语言间支持不足的问题。通过扩大词汇量和新嵌入初始化,显著提升了生成文本质量,促进了对低代表性语言的公平支持。

从以英语为中心到有效的双语:支持低代表性语言的自定义分词器的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

研究分析了大型语言模型中分词器在多语言环境下的重要性。通过Qtok工具评估13种分词器的表现,结果显示分词器在不同语言和类别上的表现差异明显,为优化分词策略提供了参考。

Qtok:评估大型语言模型中多语言分词器质量的综合框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出通过替换分词器提高大语言模型效率,实验显示在不影响性能的情况下显著加快长文本解码速度,对模型应用有重要影响。

ReTok:替换分词器以增强大语言模型的表示效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码