小红花·文摘

本文介绍了如何在个人博客中实现搜索功能，采用Pagefind与自建子串索引的双轨方案。Pagefind负责广泛搜索和用户界面，自建索引确保中文短语的精确匹配。构建过程中使用Jekyll生成静态文件，并通过Pagefind CLI创建索引。文章还讨论了中文分词的挑战及解决方案，强调了双轨方案的性价比和灵活性。

Blog增加搜索功能

elmagnifico ·

本研究针对中文分词中的词边界识别问题，采用语音-文本平行数据和Montreal Forced Aligner工具进行字符级对齐，提出了一种基于概率的过滤策略，实验结果表明该方法有效提升了分词性能。

Mining Word Boundaries from Speech-Text Parallel Data for Cross-Domain Chinese Word Segmentation

BriefGPT - AI 论文速递 ·

jieba.NET是jieba中文分词的.NET版本，支持精确、全模式和搜索引擎模式分词，可添加自定义词典和繁体分词。算法基于前缀词典和动态规划查找最大概率路径。支持并行分词和与Lucene.NET的集成。提供其他词典文件和词频统计功能。速度较快。

jieba中文分词的.NET版本

dotNET跨平台 ·

本文介绍了使用Python的SnowNLP库对博客评论数据进行情感分析的实践，包括中文分词、文本分类、提取关键词、计算文本相似度等操作。通过情感分析得到评论的正面和负面情绪，并根据概率进行分类。文章还介绍了SnowNLP的安装和简单应用，并给出了对博客评论数据进行情感分析的代码示例。最后总结了使用SnowNLP进行博客评论数据情感分析的实践的意义和作用。

数据分析实战-Python实现博客评论数据的情感分析

六虎 ·

该文章提出了一种针对序列标注任务设计的两阶段课程学习（TCL）框架，通过逐渐引入易难的数据实例来提高性能和训练速度，以增强序列标注模型的性能。实验证明了该模型在六个中文分词（CWS）和词性标注（POS）数据集上的有效性，并表明TCL加速了训练并缓解了复杂模型的慢训练问题。

一种用于序列标注的有效结合异构知识的课程学习

BriefGPT - AI 论文速递 ·

读《通向AGI之路：大型语言模型（LLM）技术精要》笔记整理

Anjhon’s Blog ·

本文回顾了中文分词的发展，特别关注了深度学习技术的应用。作者认为，基于神经网络的方法仍存在挑战，但对未来持乐观态度。

古代汉语 CWS 和 POS 的基于不确定性的检索框架

BriefGPT - AI 论文速递 ·