亚马逊AWS官方博客 ·

基于 MinerU 和 AWS Serverless 构建企业级 RAG 文档处理平台-平台搭建-聊天助手部署与 Prompt 工程

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

本文介绍了如何将MinerU处理的文档快速接入Dify，构建智能问答系统，重点在于文档导入、Prompt工程和多模态支持，确保用户能查看原始图片，从而实现高准确率和良好用户体验。

🎯

🔎

通过整合MinerU与AWS Serverless，文档处理平台能够实现高效的文档处理和快速响应。这种架构不仅提升了处理质量，还通过CloudFront加速了内容的交付，确保用户在使用智能问答系统时获得流畅的体验。

在智能问答系统中，Prompt工程是确保多模态内容正确展示的关键。通过精确的Prompt指令，可以有效控制模型输出格式，避免信息丢失，尤其是在处理图片、表格和公式时，确保用户获得完整的信息。

选择Dify作为智能问答系统的基础，主要是因为其可视化工作流设计和多模型支持。Dify能够显著缩短开发周期，降低试错成本，使得企业能够快速验证业务价值，适应市场变化。

❓

首先，从S3下载处理后的Markdown文件，然后在Dify控制台创建知识库并上传文档，最后配置分块和检索策略。

Dify提供可视化工作流设计、多模型支持和智能知识库管理，能够快速搭建原型系统并降低开发成本。

Prompt工程确保图片、表格和公式的正确显示，通过精确指令控制模型输出格式，提升用户体验。

需要在Prompt中明确指示模型保留图片链接，并使用正确的格式输出图片地址。

关键特性包括Job ID目录、文档名称目录、自动生成的处理结果和图片哈希命名等。

建议设置chunk_size为800，chunk_overlap为100，以确保重要信息不丢失并提高检索精度。

🏷️