生僻字

生僻字

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

文章探讨了大语言模型对生僻字的识别能力,关注训练数据是否涵盖所有汉字,并提及相关的汉字数字化和生僻字处理资源与平台。

🎯

关键要点

  • 文章探讨大语言模型对生僻字的识别能力。
  • 关注训练数据是否涵盖所有汉字。
  • 提及汉字数字化和生僻字处理的资源与平台。
  • 提到作者找到的码表与deepseek工程师有关,但并不全面。
  • 讨论中文字符集的层级关系:Unicode > GB18030 > GBK > GB2312。
  • 提到2024年与中文字相关的趣事。
  • 提到汉字数字化中的AI现象。
  • 介绍姓名生僻字处理平台和设备文化程度检测。
  • 提到国际电脑汉字及异体字知识库。
  • 提到教育部《异体字字典》的最新版本。
➡️

继续阅读