DEV Community ·

使用TypeScript为有声书爱好者构建词汇工具

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

本文介绍了一种通过TypeScript脚本从有声书中提取生词的方法，帮助非母语者扩展词汇。该脚本处理EPUB文件，过滤已知词汇，提取新词并规范化，最终生成包含新词的文本文件，旨在提升有声书的学习体验。

🎯

🔎

该TypeScript脚本为有声书爱好者提供了一种系统化的词汇扩展方法，尤其适合非母语者。通过提取生词并进行规范化，用户可以更有效地学习新词，提升听书体验。

项目包含三个主要文件，分别用于输入书籍、输出新词和存储已知词汇。用户只需安装依赖并运行脚本，即可快速生成新词列表，简化了学习流程。

脚本利用自然语言处理技术对单词形式进行规范化，确保用户学习到的词汇是基础形式。这种方法避免了学习同一词汇的不同变形，提高了学习效率。

❓

可以通过编写TypeScript脚本，处理EPUB文件，过滤已知词汇，提取新词并生成文本文件。

该工具的主要功能是帮助非母语者从有声书中提取生词，以扩展其词汇量。

项目包含input.epub（输入书籍）、output.txt（新词输出）和ignore_words.txt（已知词汇）。

使用自然语言处理库将不同形式的单词归一化，例如将“running”规范为“run”。

首先安装依赖，然后运行脚本以处理书籍，生成包含新词的output.txt文件。

学习工作流程包括查看output.txt中的新词，并通过ChatGPT查找其含义，逐步添加已知词汇到ignore_words.txt。

🏷️