💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
文章探讨了大语言模型对生僻字的识别能力,关注训练数据是否涵盖所有汉字,并提及相关的汉字数字化和生僻字处理资源与平台。
🎯
关键要点
- 文章探讨大语言模型对生僻字的识别能力。
- 关注训练数据是否涵盖所有汉字。
- 提及汉字数字化和生僻字处理的资源与平台。
- 提到作者找到的码表与deepseek工程师有关,但并不全面。
- 讨论中文字符集的层级关系:Unicode > GB18030 > GBK > GB2312。
- 提到2024年与中文字相关的趣事。
- 提到汉字数字化中的AI现象。
- 介绍姓名生僻字处理平台和设备文化程度检测。
- 提到国际电脑汉字及异体字知识库。
- 提到教育部《异体字字典》的最新版本。
➡️