小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一种更好的复杂视觉任务规划方法

麻省理工学院的研究人员开发了一种基于生成性人工智能的长期视觉任务规划方法,成功率约为70%。该系统结合视觉-语言模型与正式规划能力,能够处理复杂视觉输入并生成有效规划,适用于多种实际应用。

一种更好的复杂视觉任务规划方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-03-11T04:00:00Z

本研究提出了一种二维语义感知位置编码($ ext{SaPE}^2$),有效解决了现有位置编码无法捕捉图像补丁间语义关系的问题,从而显著提升了模型的泛化能力和视觉任务性能。

Two-Dimensional Semantic-Aware Positional Encoding for Vision Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z
Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色

Meta AI推出的感知编码器(PE)通过单一对比学习目标,构建了一个通用视觉编码器,支持多种视觉任务,如图像和视频分类、检索等,展现出强大的零样本泛化能力,为多模态AI系统奠定了高效基础。

Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色

实时互动网
实时互动网 · 2025-04-22T02:10:36Z

OpenAI最新发布的o3和o4-mini模型在推理和编程能力上表现优异。o3能够解决复杂问题,而o4-mini在视觉任务中更强大。两者均能处理图像并进行深度思考,但o3有时会错误声称执行代码。这些模型展示了强大的人工智能潜力。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

量子位
量子位 · 2025-04-17T07:41:07Z

本研究提出了A4Net,一个深度表现网络,通过亮度、色彩丰富度、场景理解和面部表情四个属性,弥合传统视觉任务与情感分析之间的差距。实验结果表明,A4Net在视觉情感数据集上表现优异。

Attribute-Aware Visual Emotion Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-09T00:00:00Z

本研究探讨了深度神经网络在局部损坏下的空间鲁棒性,提出了评估框架和多种攻击对抗分析方法,揭示了不同模型对损坏的反应差异,为提升视觉任务的可靠性提供了新见解。

通过自然和对抗性局部损坏对深度神经网络空间鲁棒性进行基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究提出了TULIP模型,旨在改善现有图像-文本对比模型在视觉任务中的不足。通过数据增强和对比学习,TULIP能够更有效地学习细粒度视觉特征,并保持全局语义一致性。实验结果显示,TULIP在多个基准测试中超越了现有模型,尤其在零-shot任务和少量样本分类上表现显著提升。

Unified Language-Image Pretraining: TULIP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

该研究提出了对称视觉对比优化(S-VCO),旨在解决大型视觉-语言模型在视觉任务中忽视图像内容的问题。实验结果表明,该方法显著提升了模型在多项基准测试中的表现,尤其在视觉依赖性较高的任务中,幻觉现象减少了22%。

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-19T00:00:00Z

本研究提出“可移植的奖励调优”(PRT)原则,以解决基础模型因知识过时而需频繁微调的问题。实验结果表明,基于PRT的模型在视觉和语言任务上具有与现有方法相当的准确性,同时降低了推理成本。

Portable Reward Tuning: Achieving Reusable Fine-tuning Across Different Pre-trained Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究分析了脉冲神经网络与视觉变换器的性能差距,提出了眼动脉冲自注意力机制,显著提升了SNN-ViT在视觉任务中的表现。

Pulse Visual Transformer with Eye Movement Attention Mechanism

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z
ICLR 2025 | 极性感知线性注意力!哈工深张正团队提出PolaFormer视觉基础模型

AIxiv专栏促进了学术交流,报道了2000多篇研究。本文介绍了PolaFormer,一种新型极性感知线性注意力机制,旨在解决传统自注意力的复杂度问题,从而提升视觉任务的性能与计算效率。

ICLR 2025 | 极性感知线性注意力!哈工深张正团队提出PolaFormer视觉基础模型

机器之心
机器之心 · 2025-02-01T11:44:54Z
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

AIxiv专栏促进学术交流,报道超过2000篇内容。贾佳亚团队与Adobe合作开发的GenProp模型,实现视频中的物体移除、插入、替换及背景修改,展示生成模型的优势,推动视觉任务的革新。

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

机器之心
机器之心 · 2025-01-24T07:30:15Z
新型嵌套变换器使人工智能推理速度提高2倍而不损失准确性

MatFormer是一种新型嵌套变换器架构,通过动态计算分配实现推理速度提高2倍,同时保持准确性,且在多个视觉任务中表现优异。

新型嵌套变换器使人工智能推理速度提高2倍而不损失准确性

DEV Community
DEV Community · 2024-12-17T12:25:16Z
AI 人像生成的新工具:风格多样,速度飞快 | 开源日报 No.434

yas是一个基于Java的微服务项目,使用Spring Boot和Docker Compose,支持Kubernetes部署。VisionAgent是一个用于生成视觉任务代码的库,支持图像和视频处理。geist-font是Vercel开发的字体系列,提升可读性。awesome-leetcode-resources提供编程面试准备资源。FaceChain是用于生成数字双胞胎的深度学习工具。

AI 人像生成的新工具:风格多样,速度飞快 | 开源日报 No.434

开源服务指南
开源服务指南 · 2024-11-26T23:35:26Z
人工智能周报 #296 - 新Gemini模型登顶排行榜,xAI获得融资,Pixtral大型模型

谷歌最新AI模型Gemini-Exp-1114在Imarena聊天机器人竞技场中超越了OpenAI的GPT-4o,尤其在数学和视觉任务上表现突出。该模型尚未在Gemini应用程序或网站上发布,仅可通过Google AI Studio免费账户访问。同时,埃隆·马斯克的xAI公司正在筹集60亿美元以购买Nvidia芯片,开发新超级计算机。

人工智能周报 #296 - 新Gemini模型登顶排行榜,xAI获得融资,Pixtral大型模型

Last Week in AI
Last Week in AI · 2024-11-20T20:44:07Z

本研究提出了一种创新的秩增强视觉线性变换器(RAVLT),通过改进线性注意力机制,在多个视觉任务中表现优异,尤其在ImageNet-1k上达到了84.4%的准确率。

打破线性注意力的低秩困境

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

卡内基梅隆大学提出了一种新型黑盒优化策略,利用大语言模型自动调整视觉语言模型的提示词,无需访问模型参数。这种方法提高了优化的灵活性和速度,适用于多种视觉任务,并在多个数据集上超越传统方法。研究表明,该策略能够有效捕捉视觉特性,生成高质量图像,具有广泛的应用潜力。

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

量子位
量子位 · 2024-11-06T04:07:45Z
安卓自动化 APP:轻松关闭任意开屏广告 | 开源日报 No.116

该APP通过无障碍功能、高级选择器和订阅规则,能够跳过开屏广告和弹窗广告,并提供快捷操作,如微信自动同意和领取红包。其核心优势在于高效处理视觉任务和丰富的开发支持。

安卓自动化 APP:轻松关闭任意开屏广告 | 开源日报 No.116

开源服务指南
开源服务指南 · 2024-10-27T17:25:24Z

近期,多模态大型语言模型在视觉与语言任务上表现出色,但在识别和计数图像实体方面有不足。为提升准确性,提出使用VCoder作为感知工具,通过分割或深度图增强能力。利用COCO图像和视觉模型创建COST数据集评估表现。实验表明,VCoder在对象感知上优于其他模型。数据集和代码已公开发布。

PUMA:通过多粒度视觉生成赋能统一的多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本研究提出了CTA-Net,通过结合轻量级多尺度特征融合模块和反向重构CNN变体,解决了CNN和ViT在特征提取中的低效问题,在小数据集上表现优异,适合高效轻量的视觉任务。

CTA-Net: A CNN-Transformer Aggregation Network for Enhanced Multi-Scale Feature Extraction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码