dotNET跨平台 ·

第四篇：识别图片

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

本文介绍了如何使用Azure OpenAI客户端读取和分析图片。首先，读取配置文件并创建客户端，然后将ChatClient转变为名为“VisionAgent”的AI代理，并设置指令。接着，构造包含文字和图片的用户消息，开启会话并以流式方式获取结果。最后，使用Ollama和deepseek-ocr模型识别图片中的文字。

🎯

关键要点

使用GPT读取和理解图片的步骤
从配置文件读取Azure相关信息
创建Azure OpenAI客户端，连接到自定义部署的OpenAI服务
将ChatClient转变为AI代理，命名为VisionAgent并设置指令
构造包含文字和图片的用户消息
开启可持续对话会话
以流式方式获取结果
使用Ollama和deepseek-ocr模型识别图片中的文字

❓

延伸问答

如何使用Azure OpenAI客户端读取和分析图片？

首先，从配置文件读取Azure相关信息，创建Azure OpenAI客户端，然后将ChatClient转变为名为“VisionAgent”的AI代理，构造包含文字和图片的用户消息，开启会话并以流式方式获取结果。

创建Azure OpenAI客户端需要哪些步骤？

需要从配置文件读取endpoint和api key，使用这些信息创建AzureOpenAIClient，并连接到自定义部署的OpenAI服务。

什么是VisionAgent，它的作用是什么？

VisionAgent是一个AI代理，负责分析图片，能够同时处理文字和图片内容。

如何构造包含文字和图片的用户消息？

使用Microsoft.Extensions.AI.ChatMessage构造消息，可以包含TextContent和DataContent，分别用于文字和图片的二进制数据。

如何开启可持续对话会话？

通过调用agent.CreateSessionAsync()方法来开启可持续对话会话，这样可以保持上下文。

使用Ollama和deepseek-ocr模型识别图片中的文字的步骤是什么？

首先创建OllamaApiClient并设置为VisionAgent，然后构造包含图片的用户消息，最后以流式方式获取识别结果。

🏷️

继续阅读

论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
(全球TMT2026年6月5日讯)技嘉科技正式于COMPUTEX 2026以“ENTER INFINITY”为 […]
华为云发布Agentic AI系列新品打造智能时代“硅基黑土地”
华为云在上海INSPIRE大会上发布了Agentic Infra新范式及多款Agentic AI产品，旨在推动企业智能化转型。大会还推出“行业AI梦工厂”...
史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。