第四篇:识别图片

第四篇:识别图片

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

本文介绍了如何使用Azure OpenAI客户端读取和分析图片。首先,读取配置文件并创建客户端,然后将ChatClient转变为名为“VisionAgent”的AI代理,并设置指令。接着,构造包含文字和图片的用户消息,开启会话并以流式方式获取结果。最后,使用Ollama和deepseek-ocr模型识别图片中的文字。

🎯

关键要点

  • 使用GPT读取和理解图片的步骤
  • 从配置文件读取Azure相关信息
  • 创建Azure OpenAI客户端,连接到自定义部署的OpenAI服务
  • 将ChatClient转变为AI代理,命名为VisionAgent并设置指令
  • 构造包含文字和图片的用户消息
  • 开启可持续对话会话
  • 以流式方式获取结果
  • 使用Ollama和deepseek-ocr模型识别图片中的文字

延伸问答

如何使用Azure OpenAI客户端读取和分析图片?

首先,从配置文件读取Azure相关信息,创建Azure OpenAI客户端,然后将ChatClient转变为名为“VisionAgent”的AI代理,构造包含文字和图片的用户消息,开启会话并以流式方式获取结果。

创建Azure OpenAI客户端需要哪些步骤?

需要从配置文件读取endpoint和api key,使用这些信息创建AzureOpenAIClient,并连接到自定义部署的OpenAI服务。

什么是VisionAgent,它的作用是什么?

VisionAgent是一个AI代理,负责分析图片,能够同时处理文字和图片内容。

如何构造包含文字和图片的用户消息?

使用Microsoft.Extensions.AI.ChatMessage构造消息,可以包含TextContent和DataContent,分别用于文字和图片的二进制数据。

如何开启可持续对话会话?

通过调用agent.CreateSessionAsync()方法来开启可持续对话会话,这样可以保持上下文。

使用Ollama和deepseek-ocr模型识别图片中的文字的步骤是什么?

首先创建OllamaApiClient并设置为VisionAgent,然后构造包含图片的用户消息,最后以流式方式获取识别结果。

➡️

继续阅读