小红花·文摘

刘壮陈丹琦新作：开源通用视觉推理RL框架，0思考数据刷新SOTA

量子位 ·

浙大团队破解多模态模型「盲目自信」：先校准置信度，再分配算力丨CVPR’26

量子位 ·

Qwen 3.5 Plus已上线AI Gateway

Vercel News ·

谷歌通过代理视觉大幅提升Gemini 3 Flash

InfoQ ·

英伟达的Jim Fan认为，世界建模将成为新的预训练范式，预计在2026年对机器人和多模态AI领域产生重要影响。通过预测合理的世界状态，世界建模推动物理AI的发展，强调视觉推理的重要性，可能会改变机器人技术的基础。

英伟达Jim Fan：「世界建模」是新一代预训练范式

量子位 ·

商汤开源的SenseNova-MARS模型在多模态搜索与推理中表现优异，得分69.74，超越Gemini-3-Pro和GPT-5.2。该模型支持动态视觉推理和图文搜索，具备自主规划和高效工具调用能力，推动AI实际应用。

商汤开源 SenseNova-MARS，突破多模态搜索推理天花板

量子位 ·

Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程，提升了视觉任务的处理能力。它结合视觉推理与代码执行，允许模型逐步分析和操作图像，显著提高准确性，并支持图像缩放、注释和可视化计算，增强推理能力，未来将扩展更多功能。

在Gemini 3 Flash中引入Agentic Vision

The Keyword ·

Gemini 3 Pro是一款先进的多模态模型，具备出色的文档、空间、屏幕和视频理解能力，能够进行复杂的视觉推理和文档处理，准确识别文本、表格和图形，适用于教育、医疗和金融等多个领域。

Gemini 3 Pro：视觉人工智能的前沿

The Keyword ·

在Databricks上推出Gemini 3 Pro

Databricks ·

谷歌推出了Gemini 3 Pro，这是其最智能的AI模型，性能超越之前版本，特别是在编码和多模态理解方面。开发者可通过Google AI Studio和Vertex AI访问该模型，支持自然语言编程，简化应用开发。Gemini 3 Pro还具备出色的视觉推理和空间推理能力，适用于多种应用场景。

开始使用Gemini 3进行构建

Google DeepMind Blog ·

EncQA：基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research ·

Mini-o3是字节与港大联合开发的开源视觉推理模型，支持多轮深度推理，突破传统模型限制。通过冷启动微调和强化学习，Mini-o3在视觉搜索任务中表现优异，显著超越现有模型，提供多样化推理模式。

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

量子位 ·

大模型通过三阶段训练框架提升空间思考能力，在视觉推理任务上平均提高18.4%，展现类人推理策略，推动视觉智能发展。

大模型掌握人类空间思考能力！三阶段训练框架学会“边画边想”，5个基准平均提升18.4%

量子位 ·

研究团队首次提出「像素空间推理」范式，使视觉语言模型（VLM）能够直接与视觉信息进行对话，突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异，准确率超过GPT-4o，展现出小模型大能力的特点，推动了多模态理解的发展。

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

量子位 ·

MiniMax推出的V-Triune框架实现了视觉推理与感知任务的统一学习，显著提升了性能。该框架通过动态奖励机制和样本级数据格式化，克服了传统强化学习方法的局限性。Orsta模型在基准测试中表现优异，验证了该方法的有效性。

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

量子位 ·

多模态大模型在视觉推理能力评估中表现不佳，o3仅为25.8%，远低于人类的82.3%。新基准测试RBench-V揭示了模型在图像生成和理解方面的不足，强调了改进方向，如多模态思维链等新方法。

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

量子位 ·

o3 击败了一位 Master 级别的 GeoGuessr 玩家——即使用假的 EXIF 数据也没用

宝玉的分享 ·

火山引擎发布了豆包1.5深度思考模型，包括Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。文章介绍了如何通过聆思CSK6大模型开发板接入豆包1.5，步骤包括创建应用、导入工程、配置参数和验证部署。成功接入后，用户可在开发板上进行语音交互，验证模型功能。

手把手教你用聆思CSK6大模型开发板接入豆包1.5深度思考模型

分享AI芯片开发经验 ·

本研究探讨了多模态大型推理模型在视觉推理中的隐私风险，分析了ChatGPT o3对用户位置的预测能力。研究表明，关键视觉线索会影响地理定位的成功率，并提出遮挡特征可以减轻隐私泄露风险，强调保护私人图像隐私的重要性。

Revealing Privacy Leakage in Image Geolocation through Visual Perspectives

BriefGPT - AI 论文速递 ·

图像思维

OpenAI ·