亚马逊AWS官方博客 ·

Amazon Bedrock Claude 3 多模态使用指南

💡 原文中文，约16000字，阅读约需39分钟。

📝

内容提要

Amazon Bedrock最新发布的Claude 3模型支持多模态能力，处理文本、图片和视频输入。文章介绍了Claude 3的使用指南，包括图片处理、多模态输入方式和输出控制。还给出了图片理解和文字识别的应用示例。总结了Claude 3多模态模型的新特性和使用技巧，并提供了最佳实践和应用示例。

🎯

关键要点

Amazon Bedrock 发布的 Claude 3 模型支持多模态能力，能够处理文本、图片和视频输入。
Claude 3 的使用指南包括图片处理、多模态输入方式和输出控制。
Claude 3 仅支持上传 base64 编码的图片，推荐使用 WebP 格式以减少存储量。
处理图像的最大分辨率为长边 1568 像素，短边应保证在 200 像素以上。
单张图输入时，建议图像在文本之前，支持多张图输入，最多可处理 20 张图。
Claude 3 支持多轮对话，可以在后续对话中继续增加新的图片。
输出控制方面，建议使用英文撰写提示词以获取最佳效果，支持多种输出格式。
链式思考可以帮助模型进行复杂推理，结合少样本学习可提高回答质量。
图片理解应用包括详细描述和标签生成，常用于商品标签生成。
Claude 3 也支持视频分析，通过拆帧处理视频输入。
文字识别方面，Claude 3 具备纠错能力和信息理解能力，适合复杂文档结构。
可以结合 OCR 模型提高中文字符识别准确性，Claude 3 适合做图片文字内容提取。
总结了 Claude 3 多模态模型的新特性和使用技巧，强调其在实际应用中的重要性。

❓

延伸问答

Claude 3 模型支持哪些输入类型？

Claude 3 模型支持文本、图片和视频输入。

如何处理上传的图片以适应 Claude 3 的要求？

上传的图片需为 base64 编码，推荐使用 WebP 格式，最大分辨率为长边 1568 像素，短边应保证在 200 像素以上。

Claude 3 如何进行多轮对话？

Claude 3 支持多轮对话，可以在后续对话中继续增加新的图片。

使用 Claude 3 进行图片理解时，有哪些最佳实践？

在进行图片理解时，建议详细描述希望获取的细节，以便获得更贴合需求的答案。

Claude 3 在文字识别方面有哪些优势？

Claude 3 具备纠错能力、处理复杂文档结构的能力和信息理解能力，适合进行图片文字内容提取。

如何优化 Claude 3 的输出控制？

可以通过指定输出语言、格式和预填充内容来优化输出控制，以获得更好的效果。

🏷️

标签

Amazon Bedrock Claude 3 bedrock claude 图片处理多模态能力文字识别

➡️

继续阅读

使用 Amazon Bedrock AgentCore 构建企业级 MCP 服务器：四种架构模式的实践指南
随着人工智能越来越深入地集成到企业工作流程中，企业对标准化、安全且可扩展的 AI 工具平台的需求日益增长。由 Anthropic 开发的模型上下文协议 (...
用 AI Agent 加速游戏 QA：构建基于 Amazon Bedrock 的 Agentic 自动化测试系统
本文展示如何结合 Amazon Bedrock Claude 和开源设备自动化框架，构建一个 Agentic 自动化测试系统，大幅缩短游戏版本发布前的黑盒...
别再守着 Claude Code 了——学会指挥它自主干活
回到开头那句：别再一句一句地喂它、然后守着屏幕。真正的用法是——把一件事想清楚、划好边界、给它一个能自我验证的目标，然后交出去。你会发现，省下来的时间不是...
物理AI模型对决：Claude Fable 5碾压GPT-5.6家族
模型打架你站谁？物理AI考场全记录。 OpenAI和Anthropic的顶级模型在物理建模考场正面交锋，五道密封考题，52次严格评分，分数、成本、时间全部...
刚刚，MCP协议迎来“史上最大更新”：State彻底消失，Claude率先适配支持
MCP协议迎来自诞生以来最大规模的规范升级——2026-07-28版本正式发布，核心架构从有状态转为无状态，砍掉握手与会话机制，引入多轮往返请求（MRTR...
将 Amazon Quick 日志投递至 Amazon S3：审计与长期留存指南
本文介绍如何通过 CloudWatch Logs V2 delivery，将 Amazon Quick 支持的日志直接持续投递到指定的 Amazon S3...