小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位
量子位 · 2026-04-11T01:23:42Z
浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

量子位
量子位 · 2026-03-22T07:17:19Z
Qwen 3.5 Plus已上线AI Gateway

Qwen 3.5 Plus已在AI Gateway上线,具备1M上下文窗口和自适应工具,适合网页开发和前端任务。相比Qwen 3 VL,在科学问题解决和视觉推理方面更强。使用时需在AI SDK中设置模型为alibaba/qwen3.5-plus。

Qwen 3.5 Plus已上线AI Gateway

Vercel News
Vercel News · 2026-02-16T13:00:00Z
谷歌通过代理视觉大幅提升Gemini 3 Flash

谷歌在Gemini 3 Flash中引入代理视觉,结合视觉推理与代码执行,通过“思考-行动-观察”循环分析图像并执行Python代码,提升视觉任务准确率5-10%。该方法细致检查图像细节,增强视觉推理能力,未来将扩展更多功能。

谷歌通过代理视觉大幅提升Gemini 3 Flash

InfoQ
InfoQ · 2026-02-06T19:00:00Z

英伟达的Jim Fan认为,世界建模将成为新的预训练范式,预计在2026年对机器人和多模态AI领域产生重要影响。通过预测合理的世界状态,世界建模推动物理AI的发展,强调视觉推理的重要性,可能会改变机器人技术的基础。

英伟达Jim Fan:「世界建模」是新一代预训练范式

量子位
量子位 · 2026-02-05T15:23:12Z

商汤开源的SenseNova-MARS模型在多模态搜索与推理中表现优异,得分69.74,超越Gemini-3-Pro和GPT-5.2。该模型支持动态视觉推理和图文搜索,具备自主规划和高效工具调用能力,推动AI实际应用。

商汤开源 SenseNova-MARS,突破多模态搜索推理天花板

量子位
量子位 · 2026-01-30T09:33:06Z

Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程,提升了视觉任务的处理能力。它结合视觉推理与代码执行,允许模型逐步分析和操作图像,显著提高准确性,并支持图像缩放、注释和可视化计算,增强推理能力,未来将扩展更多功能。

在Gemini 3 Flash中引入Agentic Vision

The Keyword
The Keyword · 2026-01-27T19:00:00Z

Gemini 3 Pro是一款先进的多模态模型,具备出色的文档、空间、屏幕和视频理解能力,能够进行复杂的视觉推理和文档处理,准确识别文本、表格和图形,适用于教育、医疗和金融等多个领域。

Gemini 3 Pro:视觉人工智能的前沿

The Keyword
The Keyword · 2025-12-05T16:00:00Z
在Databricks上推出Gemini 3 Pro

Databricks用户现可安全使用谷歌的Gemini 3 Pro模型,该模型在视觉推理、编码和文档分析方面表现优异,支持企业构建和部署AI代理,提升管理效率和数据处理能力。

在Databricks上推出Gemini 3 Pro

Databricks
Databricks · 2025-11-18T23:00:00Z

谷歌推出了Gemini 3 Pro,这是其最智能的AI模型,性能超越之前版本,特别是在编码和多模态理解方面。开发者可通过Google AI Studio和Vertex AI访问该模型,支持自然语言编程,简化应用开发。Gemini 3 Pro还具备出色的视觉推理和空间推理能力,适用于多种应用场景。

开始使用Gemini 3进行构建

Google DeepMind Blog
Google DeepMind Blog · 2025-11-18T17:49:13Z
EncQA:基于视觉编码的图表视觉语言模型基准评估

EncQA是一个新基准,旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答,涵盖六种视觉编码通道和八种分析任务。研究表明,模型在不同编码和任务间的性能差异显著,单纯增加模型规模并未提升表现,需针对特定视觉推理缺口制定策略。

EncQA:基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z

Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理,突破传统模型限制。通过冷启动微调和强化学习,Mini-o3在视觉搜索任务中表现优异,显著超越现有模型,提供多样化推理模式。

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

量子位
量子位 · 2025-09-15T07:46:06Z

大模型通过三阶段训练框架提升空间思考能力,在视觉推理任务上平均提高18.4%,展现类人推理策略,推动视觉智能发展。

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

量子位
量子位 · 2025-06-21T06:24:56Z

研究团队首次提出「像素空间推理」范式,使视觉语言模型(VLM)能够直接与视觉信息进行对话,突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异,准确率超过GPT-4o,展现出小模型大能力的特点,推动了多模态理解的发展。

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

量子位
量子位 · 2025-06-09T09:55:53Z

MiniMax推出的V-Triune框架实现了视觉推理与感知任务的统一学习,显著提升了性能。该框架通过动态奖励机制和样本级数据格式化,克服了传统强化学习方法的局限性。Orsta模型在基准测试中表现优异,验证了该方法的有效性。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

量子位
量子位 · 2025-05-28T14:30:45Z

多模态大模型在视觉推理能力评估中表现不佳,o3仅为25.8%,远低于人类的82.3%。新基准测试RBench-V揭示了模型在图像生成和理解方面的不足,强调了改进方向,如多模态思维链等新方法。

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合

量子位
量子位 · 2025-05-28T04:38:46Z
o3 击败了一位 Master 级别的 GeoGuessr 玩家——即使用假的 EXIF 数据也没用

在一场GeoGuessr对决中,OpenAI的o3模型以23,179分战胜人类玩家的22,054分。o3准确识别所有国家,表现出色,证明其能力源于视觉推理而非EXIF数据。尽管存在质疑,o3在无搜索情况下依然展现强大的地理定位能力。

o3 击败了一位 Master 级别的 GeoGuessr 玩家——即使用假的 EXIF 数据也没用

宝玉的分享
宝玉的分享 · 2025-05-01T14:49:27Z

火山引擎发布了豆包1.5深度思考模型,包括Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。文章介绍了如何通过聆思CSK6大模型开发板接入豆包1.5,步骤包括创建应用、导入工程、配置参数和验证部署。成功接入后,用户可在开发板上进行语音交互,验证模型功能。

手把手教你用聆思CSK6大模型开发板接入豆包1.5深度思考模型

分享AI芯片开发经验
分享AI芯片开发经验 · 2025-04-29T05:37:43Z

本研究探讨了多模态大型推理模型在视觉推理中的隐私风险,分析了ChatGPT o3对用户位置的预测能力。研究表明,关键视觉线索会影响地理定位的成功率,并提出遮挡特征可以减轻隐私泄露风险,强调保护私人图像隐私的重要性。

Revealing Privacy Leakage in Image Geolocation through Visual Perspectives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z
图像思维

OpenAI推出了o3和o4-mini视觉推理模型,首次实现图像思维。这些模型能够在回答用户问题前进行更长时间的思考,并通过图像处理技术分析图像。它们结合了高级推理和工具使用,能够从不完美的照片中提取信息,解决复杂问题。在多模态基准测试中表现优异,标志着多模态推理的重要进展。

图像思维

OpenAI
OpenAI · 2025-04-16T10:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码