💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
Nvidia Ingest是一种新微服务,能够处理PDF、Word和PowerPoint文档,提取元数据并以JSON格式返回。它利用光学字符识别提取结构化信息,用户需提供JSON作业描述。该服务可扩展,支持多种处理方法,依赖多个服务和至少两块H100或A100 GPU。
🎯
关键要点
- Nvidia Ingest是一种新微服务,处理PDF、Word和PowerPoint文档,提取元数据并以JSON格式返回。
- 该服务利用光学字符识别提取结构化信息,用户需提供JSON作业描述。
- Nvidia Ingest可扩展,支持多种处理方法,依赖多个服务和至少两块H100或A100 GPU。
- 用户通过命令行工具nv-ingest-cli指定文档处理方式,包括提取方法。
- Nvidia Ingest不支持创建文档操作的管道,但支持多种预处理和后处理转换。
- 提取的数据存储在输出目录中,每种文档类型有一个子目录,生成JSON元数据文件。
- Nvidia Ingest需要多个支持服务,包括redis、yolox、otel-collector等,并打包为Docker Compose应用。
❓
延伸问答
Nvidia Ingest是什么?
Nvidia Ingest是一种新微服务,能够处理PDF、Word和PowerPoint文档,提取元数据并以JSON格式返回。
如何使用Nvidia Ingest提取文档信息?
用户需提供JSON作业描述,通过命令行工具nv-ingest-cli指定文档处理方式,提取结果以JSON格式返回。
Nvidia Ingest支持哪些文档格式?
Nvidia Ingest支持处理PDF、Word和PowerPoint文档。
Nvidia Ingest的扩展性如何?
Nvidia Ingest可扩展,支持多种处理方法,能够使用多个服务来提高准确性或增加吞吐量。
Nvidia Ingest提取的数据如何存储?
提取的数据存储在输出目录中,每种文档类型有一个子目录,并生成JSON元数据文件。
使用Nvidia Ingest需要哪些支持服务?
Nvidia Ingest需要多个支持服务,包括redis、yolox、otel-collector等,并打包为Docker Compose应用。
➡️