京东科技开发者 ·

多模态GPT-V出世！36种场景分析ChatGPT Vision能力，LMM将全面替代语言大模型？

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

GPT-4V是一种结合了文本和图像处理能力的AI模型，可用于图像描述和创意设计等应用。然而，它在准确性和幻觉方面仍存在局限性。它适用于自动图像筛选和创意工作，但不适用于精确的文本相关任务或复杂的图像。GPT-4V能够识别多个图像，并在医学成像和皮肤疾病诊断等各种场景中进行了测试。由于隐私问题，它不适用于人脸识别。

🎯

关键要点

GPT-4V是一种结合文本和图像处理能力的AI模型，适用于图像描述和创意设计等应用。
GPT-4V在准确性和幻觉方面存在局限性，不适用于精确的文本相关任务或复杂图像。
GPT-4V能够识别多个图像，并在医学成像和皮肤疾病诊断等场景中进行了测试。
由于隐私问题，GPT-4V不适用于人脸识别。
GPT-4V的使用方法目前对美国区ChatGPT Plus账户开放，提供API。
GPT-4V在处理速度上比纯文本慢40%，但切换到GPT-V后速度提升200%。
GPT-4V适用于上下文概念性工作和图片创意性工作，但不适用于有精确性要求的文字工作和复杂图片。
GPT-4V在多图片上下文识别能力上表现良好，但在幻觉问题上仍然较为严重。
GPT-4V的应用潜力包括清晰图片的总结性工作和高纬度大模型推理。
GPT-4V在面部识别方面存在安全和隐私问题，因此被暂缓发布，现已拒绝此类请求的时间达到了98%。

❓

延伸问答

GPT-4V的主要功能是什么？

GPT-4V结合了文本和图像处理能力，适用于图像描述和创意设计等应用。

GPT-4V在准确性方面存在哪些问题？

GPT-4V在准确性和幻觉方面存在局限性，不适用于精确的文本相关任务或复杂图像。

GPT-4V适合哪些应用场景？

GPT-4V适用于上下文概念性工作和图片创意性工作，如医学成像和商品文案生成。

GPT-4V在处理速度上与纯文本相比如何？

GPT-4V的处理速度比纯文本慢40%，但切换到GPT-V后速度提升200%。

为什么GPT-4V不适用于人脸识别？

由于隐私问题，GPT-4V不适用于人脸识别，现已拒绝此类请求的时间达到了98%。

GPT-4V的使用方法是什么？

GPT-4V目前对美国区ChatGPT Plus账户开放，并提供API。

🏷️

继续阅读

微软在Build大会发布七款MAI新模型：顶尖MAI-Thinking-1深度拆解
微软在Build大会上发布了七款新AI模型，特别是MAI-Thinking-1，展示了其完整的AI产业链。通过自研MAIA芯片和大量人类数据训练，微软实现...
梦境：为更有帮助的ChatGPT提供更好的记忆
OpenAI推出了更强大的记忆系统，通过“梦境”功能自动更新用户信息，提高ChatGPT在互动中的时效性和准确性。该更新已向美国的Plus和Pro用户推出...
机器视觉压缩的三种途径：VCM、FCM 和 V-Nova 通配符
视频编码技术正向机器视觉优化发展，主要有三种方案：面向机器的视频编码（VCM）、面向机器的特征编码（FCM）和V-Nova的LCEVC。VCM优化像素处理...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一个GPT Plus会员的钱，够机器人跑一个月世界模型了
智在无界推出的Being-H-Flash隐式世界模型，月算力成本仅150元，能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理，降低了计算开销，提...