10k 星开源数据处理工具一键启动!支持 176 种语言识别;首个高层坠物检测数据集上线,含 18 个场景的近 2k 个视频

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

上海人工智能实验室和OpenDataLab团队推出了开源智能数据提取工具MinerU,可以将多模态PDF文档转化为易于分析的Markdown格式,并从网页和电子书中提取内容。hyper.ai官网上线了MinerU一站式数据提取工具Demo。hyper.ai官网还更新了优质教程、公共数据集、社区文章和热门百科词条。

🎯

关键要点

  • 上海人工智能实验室和OpenDataLab团队推出了开源智能数据提取工具MinerU。
  • MinerU可以将多模态PDF文档转化为Markdown格式,并支持从网页和电子书中提取内容。
  • hyper.ai官网上线了MinerU一站式数据提取工具Demo,并更新了优质教程和公共数据集。
  • MinerU支持176种语言的准确识别,能够将PDF转化为机器可读格式。
  • LongWriter是清华大学开发的开源项目,支持生成超长文本。
  • FADE数据集包含1,881个视频,适用于建筑物周围坠落物体检测研究。
  • ChiPBench数据集用于评估AI芯片布局算法的有效性。
  • Human Faces Dataset包含约9.6k张人脸图像,适用于人脸识别研究。
  • 社区文章精选包括牛津大学的Medical SAM 2模型和清华大学的基因组学AI应用。
  • 热门百科词条包括DALL-E和神经辐射场NeRF等,提供AI相关知识的汇编。
🏷️

标签

➡️

继续阅读