小红花·文摘

京东正式开源JoyAI-Image-Edit：AI图像编辑从“平面修图“迈向“空间重塑“

京东科技开发者 ·

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

量子位 ·

Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程，提升了视觉任务的处理能力。它结合视觉推理与代码执行，允许模型逐步分析和操作图像，显著提高准确性，并支持图像缩放、注释和可视化计算，增强推理能力，未来将扩展更多功能。

在Gemini 3 Flash中引入Agentic Vision

The Keyword ·

谷歌搜索的AI模式更新使视觉探索更加自然，用户可通过对话式提问获取丰富的视觉结果，帮助明确模糊想法。在购物时，用户只需描述商品，AI会智能推荐相关选项，简化购物体验。新技术结合图像理解和多模态能力，深入分析图像内容，提供精准结果。本周在美国推出。

AI模式现在可以帮助您进行视觉搜索和探索

The Keyword ·

清华大学与面壁智能推出的MiniCPM-V 4.0模型，参数减少至4.1B，提升了移动端图像理解能力，并支持iOS应用，推动了端侧部署的广泛应用。

性能赶超GPT-4.1-mini！MiniCPM-V 4.0达端侧图像模型新高度；HelpSteer3让AI回应更接近人类思维

HyperAI超神经 ·

清华大学与面壁智能推出的MiniCPM-V 4.0端侧大模型，具备强大的图像理解能力，参数减少至4.1B，适用于移动设备，提升用户体验，推动AI在边缘设备的应用。

性能赶超GPT-4.1-mini！MiniCPM-V 4.0达端侧图像模型新高度；HelpSteer3让AI回应更接近人类思维

HyperAI超神经 ·

昆仑万维推出的开源多模态统一模型Skywork UniPic，参数量为1.5B，具备图像理解、生成和编辑能力，性能接近大型模型，能够在消费级显卡上流畅运行，支持多种应用场景，推动AI技术普及与发展。

1.5B参数撬动“吉卜力级”全能体验，国产开源之光多模态统一模型，来了

量子位 ·

苹果分享iOS 26即将推出的人工智能基础模型细节

InfoQ ·

谷歌发布MedGemma：用于医疗文本和图像分析的开源AI模型

InfoQ ·

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一，表现优异。该模型结合532M视觉编码器和200亿参数，擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计，模型在多模态数据处理上表现突出，但仍存在局限性。

拿下38项第一！字节发布Seed1.5-VL多模态推理模型

量子位 ·

本研究提出通过扩散变换器提升图像理解与生成模型的训练效率和生成质量。采用顺序预训练策略，开发的BLIP3-o模型在基准测试中表现优异，并开放源代码和数据集以促进研究。

BLIP3-o：一种完全开放的统一多模态模型—架构、训练与数据集

BriefGPT - AI 论文速递 ·

如何在本地安装Meta Perception LM 8B？

DEV Community ·

本研究提出Nexus-Gen模型，通过双阶段对齐训练，将语言推理与图像生成相结合，提升了图像理解与生成的质量，解决了现有多模态模型在特定领域的不足。

Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

BriefGPT - AI 论文速递 ·

本研究提出了一种名为VCM的自监督视觉概念建模框架，旨在提高大型视觉-语言模型的效率。该方法通过隐式对比学习和视觉-语言微调，显著降低计算成本，同时在图像理解任务中保持优良性能。

Vision Concept Modeling Based on Implicit Contrastive Learning: Vision-Language Instruction Fine-Tuning

BriefGPT - AI 论文速递 ·

ChatGPT通过分析照片，利用车牌、植物和建筑细节推测地理位置，准确度达到200-300公里，最终锁定在加州一个小村庄，展示了其在图像理解上的潜力。

o3猜照片位置深度思考6分48秒，范围精确到“这么近那么美”

量子位 ·

NVIDIA AI 推出通用视觉语言模型 Eagle 2.5，仅用 8B 参数就能在视频任务中与 GPT-4o 匹配

实时互动网 ·

本研究探讨了大型视觉-语言模型在外科图像理解中的应用，发现其在泛化能力和上下文学习方面表现优异，但在空间和时间推理任务上仍显不足，为未来的应用提供了重要见解。

外科学人工智能中大型视觉-语言模型的系统评估

BriefGPT - AI 论文速递 ·

阿里深夜开源Qwen2.5-VL新版本，视觉推理通杀，32B比72B更聪明

机器之心 ·

Qwen2.5-VL-32B: 更聪明、更轻量!

Blog on Qwen ·

该研究提出了MicroVQA基准，评估科学研究中专家的图像理解和假设生成能力。通过1042道多项选择题，揭示了现有语言模型在多模态推理中的不足，强调感知错误是主要挑战，为AI驱动的生物医学研究提供了重要资源。

MicroVQA：基于显微镜的科学研究多模态推理基准

BriefGPT - AI 论文速递 ·