小红花·文摘

Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件

量子位 ·

一颗爱心打败所有 AI，ChatGPT、豆包、Gemini 全看不到

爱范儿 ·

谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

InfoQ ·

本研究评估了视觉语言模型（VLMs）在基础视觉概念理解方面的不足，发现其在物体识别上表现良好，但在方向和位置等低中级视觉能力上存在显著缺陷。

视觉语言模型在神经心理学测试中显示广泛的视觉缺陷

BriefGPT - AI 论文速递 ·

新型人工智能训练方法在教授类人行为的同时保持视觉技能

DEV Community ·

本研究评估了视觉语言模型（VLMs）在链接匹配视觉线索的能力，提出了VLM$^2$-Bench基准和9个子任务。研究发现现有模型表现不佳，GPT-4o的表现比人类低34.80%。呼吁增强模型的视觉能力以改善适应性。

VLM$^2$-Bench: A Closer Look at How Visual Language Models Implicitly Link Explicit Matching Visual Cues

BriefGPT - AI 论文速递 ·

OpenAI Operator 的工作原理

宝玉的分享 ·

计算机使用代理

OpenAI ·

谷歌新版Gemini（Exp 1114）超越OpenAI的o1，成为AI竞技场的领头羊，数学能力与o1相当，获得六项第一。尽管在编码和风格控制上表现不佳，但在视觉能力上领先。网友反馈褒贬不一，部分人质疑其是否为Gemini 2的预览版。

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

量子位 ·

本文探讨了多模态大型语言模型（MLLMs）在视觉和语言任务中的表现，提出了“视觉描述提示法”和特征混合方法，以提升视觉能力。研究显示，现有模型在视觉推理和理解方面存在缺陷，准确率普遍低于50%。为此，开发了多个基准测试（如MMStar和MLLM-Bench），以评估模型在复杂任务中的能力，推动多模态系统的进步。