该研究论文探讨了端到端自动语音识别(ASR)模型的分类与改进,分析了其对传统隐马尔科夫模型的影响。研究采用混合CTC-Attention方法优化中文发音检测,显著提高了性能。通过多样化训练数据和模块化培训框架,增强了模型的泛化能力,并提出将外部语言模型整合进E2E系统以降低词错误率。
作者开发了一个拼写测验应用程序,使用ChatGPT为单词生成例句,并使用Text-To-Speech API提供英语发音。作者计划加入汉字写作测验,但中文发音带有明显的英语口音,可能是由于训练数据缺乏导致的。
完成下面两步后,将自动完成登录并继续当前操作。