BriefGPT - AI 论文速递 - 2023-10-31T00:00:00Z

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

该文介绍了一种多模态框架，使用语言指导回答图像问题，包括共识知识、世界知识和理解创意和概念。在多个数据集上测试，发现语言指导可以显著提高模型性能。

共识知识图像问题多模态框架模型性能语言指导语言模型

相关推荐去reddit讨论

分享给好友

ai课（白）

ai 课（黑）

相关推荐
编辑精选

热榜 Top10

标签 Top100

ai 语言模型神经网络 linux llm 开源微软 .net python 人工智能数据集 google 算法 apple 扩散模型安全机器学习苹果 java 深度学习 android rust 游戏 postgresql 建模机器人谷歌漏洞 ios mysql openai windows c# 大模型 spring 开发者函数 api gpt github 教程 microsoft 卷积 chatgpt windows 11 数据库 nvidia iphone web mongodb 浏览器内存强化学习 security cloud docker 插件 sql 编码器基准测试 wordpress 大语言模型黑客程序员欧盟总结联邦学习 mac 入门 sora 无监督 postgres 流量 c++ 解决方案一致性 generative ai 点云 spring boot 网络安全工程师 redis 视图接口硬件 pdf 前端 swift 单片机重建多智能体 visual studio git cve kubernetes 容器面试源码内核 ceo

赞助商

我也要赞助

eolink	LigaAI
观测云	Dify.AI

推荐或自荐

意见或建议