人类通过视错觉测试AI的视觉能力,发现AI无法识别浮动心形。尽管在某些方面有所改善,AI在处理视觉错觉时仍显不足,揭示了人类与AI在视觉处理机制上的根本差异。
谷歌推出Gemma 3 QAT系列,采用量化感知训练(QAT),将模型权重从16位量化至4位,保持高精度。该系列包括四种模型(1B、4B、12B、27B),可在低功耗硬件上运行,降低VRAM需求。同时,Gemma 3增强了视觉能力,用户反馈良好。模型权重可在HuggingFace等平台获取。
本研究评估了视觉语言模型(VLMs)在基础视觉概念理解方面的不足,发现其在物体识别上表现良好,但在方向和位置等低中级视觉能力上存在显著缺陷。
新方法OmniAlign-V解决了多模态语言模型在对齐人类偏好时视觉能力下降的问题。通过设计奖励模型和偏好数据集,该方法在视觉和语言任务中表现更佳,同时保持模型能力。
本研究评估了视觉语言模型(VLMs)在链接视觉线索方面的能力,提出了VLM$^2$-Bench基准及9个子任务。研究发现现有模型性能差异显著,GPT-4o的表现低于人类34.80%。呼吁增强模型的视觉能力和适应性。
CUA结合了GPT-4o的视觉和推理能力,能够在用户请求时启动虚拟主机,并实时同步操作。通过处理屏幕截图,CUA执行多步骤任务,适应变化并自我纠正,从而提高任务完成度。
OpenAI推出了Computer-Using Agent(CUA),这是一种智能代理,能够在数字世界中执行任务。CUA结合了视觉能力和强化学习,能够像人类一样与图形用户界面互动,完成多步骤任务。尽管CUA仍处于早期阶段,但在多个基准测试中表现出色,计算机任务成功率为38.1%,网页任务成功率为58.1%。CUA的设计注重安全性,旨在减少潜在风险。
谷歌新版Gemini(Exp 1114)超越OpenAI的o1,成为AI竞技场的领头羊,数学能力与o1相当,获得六项第一。尽管在编码和风格控制上表现不佳,但在视觉能力上领先。网友反馈褒贬不一,部分人质疑其是否为Gemini 2的预览版。
MammothModa是一个多模态大型语言模型,通过融入视觉能力和扩展上下文窗口来提高性能。它在真实世界视觉语言基准测试中表现优于其他模型。
本论文提出了一个初步实现的对话管理器,将视觉能力整合到对话代理中,以增强基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,平衡了上下文保留和计算效率。通过实现视觉使能的对话系统,展望了无缝融合文本和视觉模态的丰富、上下文感知的对话。
研究发现,CLIP和DINO在细粒度任务和MLLMs中表现出优势和有希望的性能。研究提出了特征融合策略COMM,将CLIP和DINO结合起来,增强MLLMs的视觉能力。实验证明COMM在MLLMs中具有卓越性能。
研究发现,CLIP和DINO在MLLMs中具有优异的性能,提出了一种特征融合策略COMM以增强视觉能力,实验证明其具有卓越性能。
完成下面两步后,将自动完成登录并继续当前操作。