小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件

阿里巴巴发布了Qwen3.7-Plus多模态大模型,具备强大的文本和视觉能力,能够理解图片和视频,进行深度推理和自我编程,支持复杂任务的自动化。该模型已通过阿里云百炼提供API服务。

Qwen3.7-Plus上线!多模态智能体新基座,一键复刻桌面端专业软件

量子位
量子位 · 2026-06-02T03:15:52Z
一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到

人类通过视错觉测试AI的视觉能力,发现AI无法识别浮动心形。尽管在某些方面有所改善,AI在处理视觉错觉时仍显不足,揭示了人类与AI在视觉处理机制上的根本差异。

一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到

爱范儿
爱范儿 · 2025-10-31T05:56:33Z
谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

谷歌推出Gemma 3 QAT系列,采用量化感知训练(QAT),将模型权重从16位量化至4位,保持高精度。该系列包括四种模型(1B、4B、12B、27B),可在低功耗硬件上运行,降低VRAM需求。同时,Gemma 3增强了视觉能力,用户反馈良好。模型权重可在HuggingFace等平台获取。

谷歌的Gemma 3 QAT语言模型可以在消费级GPU上本地运行

InfoQ
InfoQ · 2025-04-29T13:00:00Z

本研究评估了视觉语言模型(VLMs)在基础视觉概念理解方面的不足,发现其在物体识别上表现良好,但在方向和位置等低中级视觉能力上存在显著缺陷。

视觉语言模型在神经心理学测试中显示广泛的视觉缺陷

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z
新型人工智能训练方法在教授类人行为的同时保持视觉技能

新方法OmniAlign-V解决了多模态语言模型在对齐人类偏好时视觉能力下降的问题。通过设计奖励模型和偏好数据集,该方法在视觉和语言任务中表现更佳,同时保持模型能力。

新型人工智能训练方法在教授类人行为的同时保持视觉技能

DEV Community
DEV Community · 2025-03-02T06:57:12Z

本研究评估了视觉语言模型(VLMs)在链接匹配视觉线索的能力,提出了VLM$^2$-Bench基准和9个子任务。研究发现现有模型表现不佳,GPT-4o的表现比人类低34.80%。呼吁增强模型的视觉能力以改善适应性。

VLM$^2$-Bench: A Closer Look at How Visual Language Models Implicitly Link Explicit Matching Visual Cues

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
OpenAI Operator 的工作原理

CUA结合了GPT-4o的视觉和推理能力,能够在用户请求时启动虚拟主机,并实时同步操作。通过处理屏幕截图,CUA执行多步骤任务,适应变化并自我纠正,从而提高任务完成度。

OpenAI Operator 的工作原理

宝玉的分享
宝玉的分享 · 2025-01-25T04:15:32Z
计算机使用代理

OpenAI推出了Computer-Using Agent(CUA),这是一种智能代理,能够在数字世界中执行任务。CUA结合了视觉能力和强化学习,能够像人类一样与图形用户界面互动,完成多步骤任务。尽管CUA仍处于早期阶段,但在多个基准测试中表现出色,计算机任务成功率为38.1%,网页任务成功率为58.1%。CUA的设计注重安全性,旨在减少潜在风险。

计算机使用代理

OpenAI
OpenAI · 2025-01-23T10:00:00Z

谷歌新版Gemini(Exp 1114)超越OpenAI的o1,成为AI竞技场的领头羊,数学能力与o1相当,获得六项第一。尽管在编码和风格控制上表现不佳,但在视觉能力上领先。网友反馈褒贬不一,部分人质疑其是否为Gemini 2的预览版。

谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿

量子位
量子位 · 2024-11-15T05:28:32Z

本文探讨了多模态大型语言模型(MLLMs)在视觉和语言任务中的表现,提出了“视觉描述提示法”和特征混合方法,以提升视觉能力。研究显示,现有模型在视觉推理和理解方面存在缺陷,准确率普遍低于50%。为此,开发了多个基准测试(如MMStar和MLLM-Bench),以评估模型在复杂任务中的能力,推动多模态系统的进步。

BLINK:多模态大型语言模型具备视觉但无感知能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文研究自然语言交互与认知机器人结合应用,旨在提高日常任务效率。综述了对话系统的发展、操作、训练数据及面临的挑战,指出语音对话技术设计不足,影响自然对话。提出了优化人机交互的框架,结合视觉能力与对话系统,展望未来更丰富的对话体验。

与机器人对话:拓宽参与和研究的 SLIVAR 社区提案

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

研究发现,CLIP和DINO在细粒度任务和MLLMs中表现出优势和有希望的性能。研究提出了特征融合策略COMM,将CLIP和DINO结合起来,增强MLLMs的视觉能力。实验证明COMM在MLLMs中具有卓越性能。

统一目标圈定与检测的开放和全面流程

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-04T00:00:00Z
构建我自己的ChatGPT视觉应用:结合PaLM、KOSMOS-2和LlamaIndex

OpenAI的ChatGPT视觉能力开启了新篇章,开发者们探索视觉理解与对话AI的结合。作者创建了一个多模态原型应用,利用KOSMOS-2进行图像描述,并结合Google的PaLM API实现深度对话。该应用允许用户上传图像并进行实时互动,界面友好,旨在推动视觉语言应用的发展。

构建我自己的ChatGPT视觉应用:结合PaLM、KOSMOS-2和LlamaIndex

Blog on LlamaIndex
Blog on LlamaIndex · 2023-11-08T00:00:00Z

研究发现,CLIP和DINO在MLLMs中具有优异的性能,提出了一种特征融合策略COMM以增强视觉能力,实验证明其具有卓越性能。

从 CLIP 到 DINO:多模式大型语言模型中的视觉编码器喊出来

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码