💡
原文英文,约2200词,阅读约需8分钟。
📝
内容提要
本文介绍了如何从Firebase Firestore存储的电子邮件中提取和过滤唯一链接。作者使用Node.js和Cheerio库,将电子邮件内容转换为HTML字符串,提取链接并去除多余的域名,最终收集到600多个独特链接,供研究和学习使用。
🎯
关键要点
- 本文介绍了如何从Firebase Firestore存储的电子邮件中提取和过滤唯一链接。
- 作者使用Node.js和Cheerio库,将电子邮件内容转换为HTML字符串。
- 提取链接并去除多余的域名,最终收集到600多个独特链接。
- 问题陈述:从数据库中收集所有有用和独特的链接或域名。
- 使用Firebase Firestore作为数据库,Express/node.js作为后端。
- 每个电子邮件对象包含id、创建时间、数据和主题。
- 使用editorjs模块创建基于块的编辑器来编写电子邮件。
- 通过循环遍历editorjs数据对象,将其转换为HTML字符串。
- 使用Cheerio库提取HTML字符串中的链接。
- 使用Set数据结构存储唯一链接,避免重复。
- 通过过滤不需要的域名来清理数据。
- 最终获得600多个重要链接,供研究和学习使用。
- 总结:创建了一个四步流程来提取和过滤电子邮件中的链接。
➡️