小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到

人类通过视错觉测试AI的视觉能力,发现AI无法识别浮动心形。尽管在某些方面有所改善,AI在处理视觉错觉时仍显不足,揭示了人类与AI在视觉处理机制上的根本差异。

一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到

爱范儿
爱范儿 · 2025-10-31T05:56:33Z
谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

谷歌推出Gemma 3 QAT系列,采用量化感知训练(QAT),将模型权重从16位量化至4位,保持高精度。该系列包括四种模型(1B、4B、12B、27B),可在低功耗硬件上运行,降低VRAM需求。同时,Gemma 3增强了视觉能力,用户反馈良好。模型权重可在HuggingFace等平台获取。

谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

InfoQ
InfoQ · 2025-04-29T13:00:00Z

本研究评估了视觉语言模型(VLMs)在基础视觉概念理解方面的不足,发现其在物体识别上表现良好,但在方向和位置等低中级视觉能力上存在显著缺陷。

视觉语言模型在神经心理学测试中显示广泛的视觉缺陷

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
新型人工智能训练方法在教授类人行为的同时保持视觉技能

新方法OmniAlign-V解决了多模态语言模型在对齐人类偏好时视觉能力下降的问题。通过设计奖励模型和偏好数据集,该方法在视觉和语言任务中表现更佳,同时保持模型能力。

新型人工智能训练方法在教授类人行为的同时保持视觉技能

DEV Community
DEV Community · 2025-03-02T06:57:12Z

本研究评估了视觉语言模型(VLMs)在链接视觉线索方面的能力,提出了VLM$^2$-Bench基准及9个子任务。研究发现现有模型性能差异显著,GPT-4o的表现低于人类34.80%。呼吁增强模型的视觉能力和适应性。

VLM$^2$-基准:深入探讨视觉语言模型如何隐式链接显式匹配视觉线索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
OpenAI Operator 的工作原理

CUA结合了GPT-4o的视觉和推理能力,能够在用户请求时启动虚拟主机,并实时同步操作。通过处理屏幕截图,CUA执行多步骤任务,适应变化并自我纠正,从而提高任务完成度。

OpenAI Operator 的工作原理

宝玉的分享
宝玉的分享 · 2025-01-25T04:15:32Z
计算机使用代理

OpenAI推出了Computer-Using Agent(CUA),这是一种智能代理,能够在数字世界中执行任务。CUA结合了视觉能力和强化学习,能够像人类一样与图形用户界面互动,完成多步骤任务。尽管CUA仍处于早期阶段,但在多个基准测试中表现出色,计算机任务成功率为38.1%,网页任务成功率为58.1%。CUA的设计注重安全性,旨在减少潜在风险。

计算机使用代理

OpenAI
OpenAI · 2025-01-23T10:00:00Z

谷歌新版Gemini(Exp 1114)超越OpenAI的o1,成为AI竞技场的领头羊,数学能力与o1相当,获得六项第一。尽管在编码和风格控制上表现不佳,但在视觉能力上领先。网友反馈褒贬不一,部分人质疑其是否为Gemini 2的预览版。

谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿

量子位
量子位 · 2024-11-15T05:28:32Z

MammothModa是一个多模态大型语言模型,通过融入视觉能力和扩展上下文窗口来提高性能。它在真实世界视觉语言基准测试中表现优于其他模型。

LongLLaVA:通过混合架构高效扩展多模态大语言模型至1000幅图像

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

MammothModa是一个多模态大型语言模型,通过融入视觉能力和扩展上下文窗口来提高性能。它在真实世界视觉语言基准测试中表现优于其他模型。

MammothModa: 多模大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-26T00:00:00Z

本论文提出了一个初步实现的对话管理器,将视觉能力整合到对话代理中,以增强基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,平衡了上下文保留和计算效率。通过实现视觉使能的对话系统,展望了无缝融合文本和视觉模态的丰富、上下文感知的对话。

G-VOILA: 日常情境下的凝视辅助信息查询

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

研究发现,CLIP和DINO在细粒度任务和MLLMs中表现出优势和有希望的性能。研究提出了特征融合策略COMM,将CLIP和DINO结合起来,增强MLLMs的视觉能力。实验证明COMM在MLLMs中具有卓越性能。

统一目标圈定与检测的开放和全面流程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-04T00:00:00Z

研究发现,CLIP和DINO在MLLMs中具有优异的性能,提出了一种特征融合策略COMM以增强视觉能力,实验证明其具有卓越性能。

从 CLIP 到 DINO:多模式大型语言模型中的视觉编码器喊出来

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码