小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
语言模型中的分词器

本文探讨了现代语言模型中的分词算法,包括朴素分词、词干提取、字节对编码(BPE)、WordPiece和SentencePiece。分词是自然语言处理中的重要步骤,旨在将原始文本转换为可处理的标记。BPE通过合并频繁的相邻字符对构建词汇,WordPiece通过最大化训练数据的可能性优化分词,而SentencePiece适用于多语言场景,无需预分词。理解这些算法对有效处理文本数据至关重要。

语言模型中的分词器

MachineLearningMastery.com
MachineLearningMastery.com · 2025-05-28T17:06:05Z
像变压器一样解码文本:掌握字节对编码(BPE)标记化

本文介绍了字节对编码(BPE)作为自然语言处理中的子词标记化技术,解决了传统词基标记化的局限性,提升了词汇效率和处理未见词的能力。文章详细阐述了BPE的训练过程及其在新文本标记化中的应用,强调了顺序合并规则的重要性,指出BPE在现代语言模型中的关键角色。

像变压器一样解码文本:掌握字节对编码(BPE)标记化

DEV Community
DEV Community · 2025-03-21T20:30:00Z
字节对编码:大型语言模型背后的基本原理

大型语言模型(LLM)如DeepSeek和GPT比文本自动纠错机制更复杂。它们基于N-gram模型,通过概率预测下一个单词,分解文本为词对并计算频率。分词方法包括空格分词和字节对编码(BPE),后者通过字符频率构建词汇,减少词汇量并识别未知术语。现代LLM采用更复杂的策略,超出本文讨论范围。

字节对编码:大型语言模型背后的基本原理

DEV Community
DEV Community · 2025-02-18T23:17:06Z

本研究通过字节对编码(BPE)合并分组方法,解决了低计算环境下语言模型的内存消耗问题,内存使用减少了3.4倍,性能与GPT-Neo和GPT-2相当。

语言模型词汇压缩用于低计算环境

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

该研究探讨了阈值词汇裁剪在字节对编码子词分词中的应用。实验结果显示,词汇裁剪无法提高性能,甚至可能导致严重的性能下降。

子词正则化的分布特性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本文介绍了一种使用字节对编码和单元语言模型来自动分段非分段密码的方法,平均分段错误率为2%和27%。同时,提出了一种解决已知替代密钥的非确定性密码的方法,并成功解密了一个历史密码IA。

解决占星杀手的 340 个字符密码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-26T00:00:00Z

该文章介绍了字节对编码(BPE)工具,主要功能包括将UTF-8字节映射到Unicode字符、提取单词中的符号对,以及文本的编码和解码。通过合并频率最高的字节对,BPE能够有效处理大规模数据集,减少未知字符的出现。

gpt2 tokenizer源码解析

李文举
李文举 · 2023-01-10T01:20:08Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码