小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

量子位
量子位 · 2026-04-11T01:23:42Z
浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

浙江大学与阿里巴巴等团队研究发现,多模态大模型在视觉推理中存在“盲目自信”现象,即在图像质量下降时仍保持高置信度。为解决此问题,提出CA-TTS框架,通过置信度校准和资源分配优化推理效果。实验表明,该方法在多个视觉推理基准上显著提升准确率,强调了先感知后推理的重要性。

浙大团队破解多模态模型「盲目自信」:先校准置信度,再分配算力丨CVPR’26

量子位
量子位 · 2026-03-22T07:17:19Z
Qwen 3.5 Plus已上线AI Gateway

Qwen 3.5 Plus已在AI Gateway上线,具备1M上下文窗口和自适应工具,适合网页开发和前端任务。相比Qwen 3 VL,在科学问题解决和视觉推理方面更强。使用时需在AI SDK中设置模型为alibaba/qwen3.5-plus。

Qwen 3.5 Plus已上线AI Gateway

Vercel News
Vercel News · 2026-02-16T13:00:00Z
谷歌通过代理视觉大幅提升Gemini 3 Flash

谷歌在Gemini 3 Flash中引入代理视觉,结合视觉推理与代码执行,通过“思考-行动-观察”循环分析图像并执行Python代码,提升视觉任务准确率5-10%。该方法细致检查图像细节,增强视觉推理能力,未来将扩展更多功能。

谷歌通过代理视觉大幅提升Gemini 3 Flash

InfoQ
InfoQ · 2026-02-06T19:00:00Z

英伟达的Jim Fan认为,世界建模将成为新的预训练范式,预计在2026年对机器人和多模态AI领域产生重要影响。通过预测合理的世界状态,世界建模推动物理AI的发展,强调视觉推理的重要性,可能会改变机器人技术的基础。

英伟达Jim Fan:「世界建模」是新一代预训练范式

量子位
量子位 · 2026-02-05T15:23:12Z

商汤开源的SenseNova-MARS模型在多模态搜索与推理中表现优异,得分69.74,超越Gemini-3-Pro和GPT-5.2。该模型支持动态视觉推理和图文搜索,具备自主规划和高效工具调用能力,推动AI实际应用。

商汤开源 SenseNova-MARS,突破多模态搜索推理天花板

量子位
量子位 · 2026-01-30T09:33:06Z

Gemini 3 Flash的Agentic Vision通过将图像理解转变为主动过程,提升了视觉任务的处理能力。它结合视觉推理与代码执行,允许模型逐步分析和操作图像,显著提高准确性,并支持图像缩放、注释和可视化计算,增强推理能力,未来将扩展更多功能。

在Gemini 3 Flash中引入Agentic Vision

The Keyword
The Keyword · 2026-01-27T19:00:00Z

Gemini 3 Pro是一款先进的多模态模型,具备出色的文档、空间、屏幕和视频理解能力,能够进行复杂的视觉推理和文档处理,准确识别文本、表格和图形,适用于教育、医疗和金融等多个领域。

Gemini 3 Pro:视觉人工智能的前沿

The Keyword
The Keyword · 2025-12-05T16:00:00Z
在Databricks上推出Gemini 3 Pro

Databricks用户现可安全使用谷歌的Gemini 3 Pro模型,该模型在视觉推理、编码和文档分析方面表现优异,支持企业构建和部署AI代理,提升管理效率和数据处理能力。

在Databricks上推出Gemini 3 Pro

Databricks
Databricks · 2025-11-18T23:00:00Z

谷歌推出了Gemini 3 Pro,这是其最智能的AI模型,性能超越之前版本,特别是在编码和多模态理解方面。开发者可通过Google AI Studio和Vertex AI访问该模型,支持自然语言编程,简化应用开发。Gemini 3 Pro还具备出色的视觉推理和空间推理能力,适用于多种应用场景。

开始使用Gemini 3进行构建

Google DeepMind Blog
Google DeepMind Blog · 2025-11-18T17:49:13Z
EncQA:基于视觉编码的图表视觉语言模型基准评估

EncQA是一个新基准,旨在评估视觉语言模型在图表理解中的表现。它提供2076对合成问答,涵盖六种视觉编码通道和八种分析任务。研究表明,模型在不同编码和任务间的性能差异显著,单纯增加模型规模并未提升表现,需针对特定视觉推理缺口制定策略。

EncQA:基于视觉编码的图表视觉语言模型基准评估

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-13T00:00:00Z

Mini-o3是字节与港大联合开发的开源视觉推理模型,支持多轮深度推理,突破传统模型限制。通过冷启动微调和强化学习,Mini-o3在视觉搜索任务中表现优异,显著超越现有模型,提供多样化推理模式。

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

量子位
量子位 · 2025-09-15T07:46:06Z

大模型通过三阶段训练框架提升空间思考能力,在视觉推理任务上平均提高18.4%,展现类人推理策略,推动视觉智能发展。

大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%

量子位
量子位 · 2025-06-21T06:24:56Z

研究团队首次提出「像素空间推理」范式,使视觉语言模型(VLM)能够直接与视觉信息进行对话,突破了传统文本推理的局限。该模型在多个视觉推理基准测试中表现优异,准确率超过GPT-4o,展现出小模型大能力的特点,推动了多模态理解的发展。

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

量子位
量子位 · 2025-06-09T09:55:53Z

MiniMax推出的V-Triune框架实现了视觉推理与感知任务的统一学习,显著提升了性能。该框架通过动态奖励机制和样本级数据格式化,克服了传统强化学习方法的局限性。Orsta模型在基准测试中表现优异,验证了该方法的有效性。

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

量子位
量子位 · 2025-05-28T14:30:45Z

多模态大模型在视觉推理能力评估中表现不佳,o3仅为25.8%,远低于人类的82.3%。新基准测试RBench-V揭示了模型在图像生成和理解方面的不足,强调了改进方向,如多模态思维链等新方法。

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合

量子位
量子位 · 2025-05-28T04:38:46Z
o3 击败了一位 Master 级别的 GeoGuessr 玩家——即使用假的 EXIF 数据也没用

在一场GeoGuessr对决中,OpenAI的o3模型以23,179分战胜人类玩家的22,054分。o3准确识别所有国家,表现出色,证明其能力源于视觉推理而非EXIF数据。尽管存在质疑,o3在无搜索情况下依然展现强大的地理定位能力。

o3 击败了一位 Master 级别的 GeoGuessr 玩家——即使用假的 EXIF 数据也没用

宝玉的分享
宝玉的分享 · 2025-05-01T14:49:27Z

火山引擎发布了豆包1.5深度思考模型,包括Doubao-1.5-thinking-pro和Doubao-1.5-thinking-pro-vision。文章介绍了如何通过聆思CSK6大模型开发板接入豆包1.5,步骤包括创建应用、导入工程、配置参数和验证部署。成功接入后,用户可在开发板上进行语音交互,验证模型功能。

手把手教你用聆思CSK6大模型开发板接入豆包1.5深度思考模型

分享AI芯片开发经验
分享AI芯片开发经验 · 2025-04-29T05:37:43Z

本研究探讨了多模态大型推理模型在视觉推理中的隐私风险,分析了ChatGPT o3对用户位置的预测能力。研究表明,关键视觉线索会影响地理定位的成功率,并提出遮挡特征可以减轻隐私泄露风险,强调保护私人图像隐私的重要性。

Revealing Privacy Leakage in Image Geolocation through Visual Perspectives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z
图像思维

OpenAI推出了o3和o4-mini视觉推理模型,首次实现图像思维。这些模型能够在回答用户问题前进行更长时间的思考,并通过图像处理技术分析图像。它们结合了高级推理和工具使用,能够从不完美的照片中提取信息,解决复杂问题。在多模态基准测试中表现优异,标志着多模态推理的重要进展。

图像思维

OpenAI
OpenAI · 2025-04-16T10:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码