小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
语言模型中的分词器

本文探讨了现代语言模型中的分词算法,包括朴素分词、词干提取、字节对编码(BPE)、WordPiece和SentencePiece。分词是自然语言处理中的重要步骤,旨在将原始文本转换为可处理的标记。BPE通过合并频繁的相邻字符对构建词汇,WordPiece通过最大化训练数据的可能性优化分词,而SentencePiece适用于多语言场景,无需预分词。理解这些算法对有效处理文本数据至关重要。

语言模型中的分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-28T17:06:05Z
像变压器一样解码文本:掌握字节对编码(BPE)标记化

本文介绍了字节对编码(BPE)作为自然语言处理中的子词标记化技术,解决了传统词基标记化的局限性,提升了词汇效率和处理未见词的能力。文章详细阐述了BPE的训练过程及其在新文本标记化中的应用,强调了顺序合并规则的重要性,指出BPE在现代语言模型中的关键角色。

像变压器一样解码文本:掌握字节对编码(BPE)标记化

DEV Community
DEV Community · 2025-03-21T20:30:00Z
字节对编码:大型语言模型背后的基本原理

大型语言模型(LLM)如DeepSeek和GPT比文本自动纠错机制更复杂。它们基于N-gram模型,通过概率预测下一个单词,分解文本为词对并计算频率。分词方法包括空格分词和字节对编码(BPE),后者通过字符频率构建词汇,减少词汇量并识别未知术语。现代LLM采用更复杂的策略,超出本文讨论范围。

字节对编码:大型语言模型背后的基本原理

DEV Community
DEV Community · 2025-02-18T23:17:06Z

本研究通过字节对编码(BPE)合并分组方法,解决了低计算环境下语言模型的内存消耗问题,内存使用减少了3.4倍,性能与GPT-Neo和GPT-2相当。

Vocabulary Compression of Language Models for Low-Compute Environments

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z
大语言模型的工作原理,无需数学解释 [译]

本文介绍了大语言模型(LLMs)的工作原理,强调其通过接收文本输入并预测下一个词(token)来生成文本。模型使用tokens作为基本单位,利用字节对编码(BPE)算法进行处理。生成文本的过程涉及多次循环预测下一个token,并通过超参数调整文本风格。尽管表现出复杂性,但大语言模型并不具备真正的智能,生成内容主要基于训练数据的模式匹配。

大语言模型的工作原理,无需数学解释 [译]

宝玉的分享
宝玉的分享 · 2024-07-29T17:39:00Z

研究表明,字节对编码(BPE)在孟加拉语自动语音识别中有效,最佳令牌数量为500-1000。对阿拉伯语言模型的分析显示,Farasa的BPE在多项任务中表现优于其他策略,但在情感分析中存在方言问题。建议改进分词策略以增强模型鲁棒性,并指出词汇量对模型性能的影响有限。

构建 BPE 分词 DFA

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

该文章介绍了字节对编码(BPE)工具,主要功能包括将UTF-8字节映射到Unicode字符、提取单词中的符号对,以及文本的编码和解码。通过合并频率最高的字节对,BPE能够有效处理大规模数据集,减少未知字符的出现。

gpt2 tokenizer源码解析

李文举
李文举 · 2023-01-10T01:20:08Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码