aiktb's blog ·

停止使用 kuromoji.js：@sglkc/kuromoji 是更好、更现代的分支

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

这篇文章介绍了@sglkc/kuromoji，它是kuromoji.js的一个分支，解决了它的一些限制，包括缺乏直接浏览器兼容性和Service Worker支持。作者建议使用WanaKana进行[罗马字，平假名，片假名]之间的转换，并确定一个Unicode字符属于[汉字，罗马字，平假名，片假名]中的哪一个。作者还提供了从日文文本中提取汉字发音的代码。

🎯

关键要点

@sglkc/kuromoji是kuromoji.js的一个分支，解决了浏览器兼容性和Service Worker支持的问题。
kuromoji.js是Node.js版本，主要用于日文形态分析，提供文本分割和发音信息。
kuromoji.js在API移植中更改了多个字段名称，导致程序员使用不便。
kuromoji.js不支持Promise，仅支持回调函数，导致代码结构混乱。
集成kuromoji.js到浏览器时需要引用CDN或直接包含构建文件，限制了ESM的使用。
kuromoji.js在浏览器中运行时会导致一系列错误，并且占用大量内存。
修改kuromoji.js源代码是解决问题的必要步骤，且该项目自2018年后没有更新。
@sglkc/kuromoji通过替换zlib.js和XMLHttpRequest，解决了kuromoji.js的主要问题。
使用Promise的简单封装可以提高代码的可读性和结构性。
WanaKana库可以处理罗马字、平假名和片假名之间的转换，并确定Unicode字符的类型。
提取汉字发音的代码示例展示了如何处理日文文本中的汉字。

🏷️

继续阅读

GitLab建议人工智能可以检测漏洞，但治理机制才是决定风险的关键
Artificial intelligence is rapidly transforming how software vulnerabilities ...
从文本到表格：利用大型语言模型进行表格数据的特征工程
While large language models (LLMs) are typically used for conversational purp...
AI基础设施危机：当雄心与古老系统相遇
本文介绍了一个用于AI基础设施迁移的Python类，涵盖迁移的四个阶段：试点、数据层迁移、计算现代化和全面过渡，每个阶段都有成功标准和回滚计划，以及预检查和验证功能。
在生成性人工智能时代维持开源的可持续性
开源社区面临AI带来的新挑战，尽管AI提高了效率，但审查过程并未简化。Kyverno项目推出AI使用政策，强调贡献者需对代码负责，确保透明性和审查质量。社...
蔚来，盈利了！！！
历史最佳财报
你的 NAS 闲着也是闲着，不如拿来“撸”一把（附 Docker 教程）
这篇文章介绍了一款名为“撸”的APP，用户可以记录日常小确幸并与朋友进行PK。该项目支持账号系统和成就解锁，并已打包为Docker镜像，便于部署。作者提醒...

停止使用 kuromoji.js：@sglkc/kuromoji 是更好、更现代的分支

内容提要

关键要点

标签

继续阅读