一款一站式、开源、高质量的数据提取工具(支持PDF/网页/多格式电子书提取)...
💡
原文中文,约800字,阅读约需2分钟。
📝
内容提要
MinerU是一款开源的数据提取工具,支持将PDF、网页和多格式电子书转换为markdown格式。它包含Magic-PDF和Magic-Doc两个核心功能,能够移除文档的头部、尾部、脚注和页码,并保留原文档结构和格式。Magic-PDF还能提取和显示图像和表格,并将方程转换为LaTeX格式。Magic-Doc支持将网页和多格式电子书转换为markdown格式,并能准确识别176种语言。开源地址:https://github.com/opendatalab/MinerU
🎯
关键要点
- MinerU是一款开源的数据提取工具,支持PDF、网页和多格式电子书转换为markdown格式。
- MinerU包含Magic-PDF和Magic-Doc两个核心功能。
- Magic-PDF能够将PDF文档转换为markdown格式,移除头部、尾部、脚注和页码,保留原文档结构和格式。
- Magic-PDF支持提取和显示图像和表格,并将方程转换为LaTeX格式。
- Magic-Doc支持将网页和多格式电子书转换为markdown格式,能够精确解析文本、图像、表格和公式信息。
- Magic-Doc支持多种文档格式,如epub和mobi,并能准确识别176种语言。
- MinerU的开源地址为:https://github.com/opendatalab/MinerU
➡️