小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
jieba-rs 分词性能优化记录:提升 2.4 倍

jieba-rs的性能优化记录显示,HMM分词速度从2.85µs降至1.32µs,非HMM从2.21µs降至0.94µs,分别提升了2.16倍和2.35倍。主要改动包括使用thread_local!替代lazy_static!、复用内存、减少拷贝和优化数据结构,最终用更高效的字符分类方法替换了正则引擎,显著提升了分词性能。

jieba-rs 分词性能优化记录:提升 2.4 倍

Messense Lv
Messense Lv · 2026-04-19T14:57:28Z
BPE演示

BPE(字节对编码)是一种自然语言处理的分词方法,通过将文本拆分为最小字符并统计相邻字符对的频率,贪心地合并高频对,直到达到预设的词表大小。

BPE演示

plus studio
plus studio · 2026-01-03T00:00:00Z
BPE演示

BPE(字节对编码)是一种自然语言处理的分词方法,通过将文本拆分为最小字符并统计相邻字符对的频率,贪心地合并高频字符对,直到达到预设的词表大小。

BPE演示

plus studio
plus studio · 2026-01-02T00:00:00Z
VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。

VoxCPM - 一种无分词的文本转语音(TTS)系统,支持上下文感知的语音合成……

云原生
云原生 · 2025-12-05T06:53:59Z
如何使用Natural库在JavaScript中进行基本的自然语言处理

Natural是一个轻量级的JavaScript自然语言处理库,提供分词、词干提取和文本分类等基本功能,适合初学者使用。

如何使用Natural库在JavaScript中进行基本的自然语言处理

The New Stack
The New Stack · 2025-11-24T15:09:49Z
如何在Python中进行文本分词 — 附代码示例

本文介绍了五种Python文本分词方法,包括split()、NLTK的word_tokenize()、re.findall()、Pandas的str.split()和Gensim的tokenize(),每种方法适用于不同场景,选择合适的方法可提高文本处理效率和准确性。

如何在Python中进行文本分词 — 附代码示例

freeCodeCamp.org
freeCodeCamp.org · 2025-09-19T19:34:12Z

本文介绍了仓颉分词器在自然语言处理中的重要性,能够将文本转换为模型可理解的数字序列,并支持编码与解码。用户可通过华为云开发者空间快速部署Qwen2模型,体验分词器在模型开发中的应用。

跨平台分词利器:基于开发者空间进行仓颉版Tokenizer的Qwen模型适配

华为云官方博客
华为云官方博客 · 2025-08-05T06:45:11Z
7个大型语言模型的核心概念,7分钟讲解

大型语言模型的核心概念包括分词、嵌入、Transformer架构、训练阶段、上下文窗口、温度与采样,以及模型参数与规模。这些概念构成了大型语言模型的技术基础。

7个大型语言模型的核心概念,7分钟讲解

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-17T12:00:25Z
基础自然语言处理

NLTK是一个用于自然语言处理的Python库,提供分类、分词和词干提取等功能。文章通过示例代码展示了如何使用split()和tokenize进行文本分割,并强调了分词的重要性。

基础自然语言处理

DEV Community
DEV Community · 2025-05-28T10:16:29Z
为什么你的AI输出是错误的:分词的隐秘影响

AI模型通过子词单元处理文本,分词方法(如BPE和SentencePiece)影响模型的准确性和效率。分词可能导致输出错误和上下文丢失,理解分词机制对提升AI性能至关重要。

为什么你的AI输出是错误的:分词的隐秘影响

DEV Community
DEV Community · 2025-05-20T23:19:15Z

本研究解决了印度低资源语言命名实体识别(NER)中的分词策略不适用的问题,提出了比较BPE、SentencePiece和字符级分词的系统方法。研究发现,SentencePiece在零样本跨语言设置中表现优于BPE,特别是在处理形态复杂的极低资源语言时,可以更好地保持实体一致性,从而提高实体识别的准确性和泛化能力。

分词的重要性:提升印度语言的零样本命名实体识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z
从零开始实现模板引擎(类似于 Jinja2 或 Django 模板)

本文介绍了模板引擎的实现原理,包括变量标签、块标签的使用,循环和条件语句的处理,以及如何构建抽象语法树(AST)并渲染为HTML。通过示例代码,展示了模板的分词、节点处理和最终渲染过程,帮助读者理解模板引擎的工作机制。

从零开始实现模板引擎(类似于 Jinja2 或 Django 模板)

DEV Community
DEV Community · 2025-04-16T11:52:21Z
解读人工智能术语:开发者理解基础知识指南

本文介绍了人工智能中的基本概念,包括分词、向量嵌入、位置编码和自注意力机制。分词将文本拆分为可处理单元,向量嵌入为单元赋予数学意义,位置编码帮助模型理解词序,自注意力机制使模型根据上下文理解词义。这些概念是现代大型语言模型理解和处理语言的基础。

解读人工智能术语:开发者理解基础知识指南

DEV Community
DEV Community · 2025-04-09T06:29:48Z

本研究解决了关于分词训练数据规模对分词质量影响的假设,探讨了1GB到900GB数据集的效果。研究发现数据规模的增加带来了递减的收益,揭示了分词训练数据规模提升的实际限制,并分析了这一饱和效应。结果为优化分词过程提供了宝贵的见解,并指出了未来分词算法研究的潜在方向。

多少才够?分词训练数据的收益递减

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
小猫英语:当一个动词不是动词

本文介绍了英语语法中的非谓语动词,包括动词不定式、动名词和分词。非谓语动词在句子中有不同的角色,表达不同的时态和意义。动词不定式强调目的,动名词表示持续状态,分词可作定语或状语。理解这些用法有助于掌握英语句子结构。

小猫英语:当一个动词不是动词

UsubeniFantasy
UsubeniFantasy · 2025-02-25T03:59:53Z
字节对编码:大型语言模型背后的基本原理

大型语言模型(LLM)如DeepSeek和GPT比文本自动纠错机制更复杂。它们基于N-gram模型,通过概率预测下一个单词,分解文本为词对并计算频率。分词方法包括空格分词和字节对编码(BPE),后者通过字符频率构建词汇,减少词汇量并识别未知术语。现代LLM采用更复杂的策略,超出本文讨论范围。

字节对编码:大型语言模型背后的基本原理

DEV Community
DEV Community · 2025-02-18T23:17:06Z

LLMs模型通过分词(Tokenization)理解和生成文本。BPE(Byte Pair Encoding)分词器将单词拆分为更小的单元,有效控制词汇量,处理新词并捕捉词义。picoGPT项目中的encoder.py展示了BPE的核心原理,帮助理解GPT如何将语言转换为机器可处理的数字序列。

BPE 分词器 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-13T00:18:00Z

本研究解决了低资源语言(如印度语言)在自动语音识别中的准确性和速度问题。论文提出了两种新方法:一种是结合语言家族信息的提示调整,以提高语言相似性语言的准确性;另一种是新型分词器,以减少生成的token数量,从而加快Whisper的推理速度,实验结果表明这两种方法有效地平衡了最优的字错误率和推理速度。

通过提示调整和分词技术提高Whisper在印度语言中的准确性和速度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-27T00:00:00Z

本研究分析了现有子词分词方法在蛋白质序列处理中的不足,比较了BPE、WordPiece和SentencePiece,发现它们在表示和域边界保持方面存在显著差异,传统方法需改进以更好适应蛋白质特征。

语言规律与蛋白质序列的结合:子词分词方法的比较分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-26T00:00:00Z

本研究解决了大型语言模型中长令牌频次不足导致学习不平衡的问题。提出的LBPE方法在编码过程中优先考虑长令牌,从而平衡短令牌和长令牌之间的频率差异。实验结果表明,LBPE在多种语言建模任务中表现优于传统的字节对编码(BPE),展示了其有效性。

LBPE:优先处理长令牌的分词方法以改善大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-08T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码