小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究针对中文分词中的词边界识别问题,采用语音-文本平行数据和Montreal Forced Aligner工具进行字符级对齐,提出了一种基于概率的过滤策略,实验结果表明该方法有效提升了分词性能。

Mining Word Boundaries from Speech-Text Parallel Data for Cross-Domain Chinese Word Segmentation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

jieba.NET是jieba中文分词的.NET版本,支持精确、全模式和搜索引擎模式分词,可添加自定义词典和繁体分词。算法基于前缀词典和动态规划查找最大概率路径。支持并行分词和与Lucene.NET的集成。提供其他词典文件和词频统计功能。速度较快。

jieba中文分词的.NET版本

dotNET跨平台
dotNET跨平台 · 2024-07-05T00:02:53Z

本文介绍了使用Python的SnowNLP库对博客评论数据进行情感分析的实践,包括中文分词、文本分类、提取关键词、计算文本相似度等操作。通过情感分析得到评论的正面和负面情绪,并根据概率进行分类。文章还介绍了SnowNLP的安装和简单应用,并给出了对博客评论数据进行情感分析的代码示例。最后总结了使用SnowNLP进行博客评论数据情感分析的实践的意义和作用。

数据分析实战-Python实现博客评论数据的情感分析

六虎
六虎 · 2024-03-13T06:22:42Z

该文章提出了一种针对序列标注任务设计的两阶段课程学习(TCL)框架,通过逐渐引入易难的数据实例来提高性能和训练速度,以增强序列标注模型的性能。实验证明了该模型在六个中文分词(CWS)和词性标注(POS)数据集上的有效性,并表明TCL加速了训练并缓解了复杂模型的慢训练问题。

一种用于序列标注的有效结合异构知识的课程学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z
读《通向AGI之路:大型语言模型(LLM)技术精要》笔记整理

中间任务包括中文分词、词性标注、NER、句法分析、指代消解、语义Parser等,一般作为解决实际需求任务的中间或辅助阶段。最终任务包括文本分类、文本相似性计算、机器翻译、文本摘要等,能直接呈现给用户。

读《通向AGI之路:大型语言模型(LLM)技术精要》笔记整理

Anjhon’s Blog
Anjhon’s Blog · 2024-01-29T00:00:00Z

本文回顾了中文分词的发展,特别关注了深度学习技术的应用。作者认为,基于神经网络的方法仍存在挑战,但对未来持乐观态度。

古代汉语 CWS 和 POS 的基于不确定性的检索框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码